Apple
,mesterséges intelligencia
,AI
,Ferret-UI Lite
,multimodális modell
,MLLM
,on-device AI
,adatvédelem
,Android
,GUI agent
,machine learning
,tech hírek
Az Apple új mesterséges intelligenciája, a Ferret-UI Lite mindössze 3 milliárd paraméterrel képes felvenni a versenyt a nála akár 24-szer nagyobb modellekkel – ráadásul közvetlenül az eszközön fut.
Az Apple tovább bővítette a Ferret modellcsaládot egy új, kifejezetten eszközön futtatható változattal. A Ferret-UI Lite mindössze 3 milliárd paraméterből áll, mégis képes hozni – sőt bizonyos esetekben meghaladni – az akár 24-szer nagyobb GUI-ügynök modellek teljesítményét. A cél nem pusztán a hatékonyság volt, hanem az is, hogy a rendszer képes legyen közvetlenül mobilon vagy más eszközön működni, felhőkapcsolat nélkül.
A történet még 2023 decemberében indult, amikor egy kutatócsoport publikálta a FERRET: Refer and Ground Anything Anywhere at Any Granularity című tanulmányt. Az eredeti modell képes volt természetes nyelvi utasítások alapján képrészleteket azonosítani, konkrét vizuális elemekre „rámutatni”, majd azokra hivatkozni. Ez a multimodális nagy nyelvi modell (MLLM) alapozta meg a későbbi fejlesztéseket.

Az Apple ezt követően több továbbfejlesztett verziót is bemutatott: a Ferretv2, a Ferret-UI, valamint a Ferret-UI 2 modelleket. Különösen a Ferret-UI jelentett fontos előrelépést, mivel azt kifejezetten mobil felhasználói felületek (UI) megértésére optimalizálták. A kutatók szerint a hagyományos, általános célú multimodális modellek gyakran alul teljesítenek akkor, amikor konkrét alkalmazásfelületek, ikonok, szövegek vagy kisebb vizuális elemek értelmezése a feladat. A Ferret-UI ezért „any resolution” megközelítéssel nagyította ki a fontos részleteket.
A legújabb változat, a Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents azonban egészen más irányt vett. Míg a korábbi Ferret-UI modellek 13 milliárd paraméteres architektúrára épültek, a Lite verzió csupán 3 milliárdra támaszkodik. Ez drasztikus méretcsökkentés, ami elsőre kompromisszumokkal járna – ám a kutatók szerint a modell így is versenyképes maradt.

A siker egyik kulcsa az úgynevezett valós idejű kivágási és nagyítási technika. A modell először teljes képernyőn készít egy kezdeti predikciót, majd a feltételezett releváns terület köré „kivág”, és ezen a szűkített képrészleten újraértékelést végez. Ez a kétlépcsős folyamat lehetővé teszi, hogy a kisebb modell hatékonyabban dolgozzon a korlátozott számítási kapacitás mellett is, hiszen nem kell egyszerre hatalmas mennyiségű képi tokent feldolgoznia.
A Ferret-UI Lite további érdekessége, hogy részben saját maga generálta a tanítóadatait. A kutatók egy többügynökös rendszert hoztak létre, amely valós GUI-környezetekben (Android, webes és asztali felületeken) hajtott végre feladatokat. Egy „tananyag-generátor” növekvő nehézségű célokat tűzött ki, egy tervező ügynök lépésekre bontotta azokat, egy másik végrehajtotta az akciókat a képernyőn, míg egy kritikus modell értékelte az eredményt. Így a rendszer képes volt a valós interakciók során fellépő hibákat és váratlan állapotokat is megtanulni kezelni.

További friss Telefongurus hírek erre!
Érdekes módon a Lite verziót nem iOS-környezetben, hanem Android, webes és desktop GUI benchmarkokon – például AndroidWorld és OSWorld teszteken – tréningezték és értékelték. Ennek oka valószínűleg az, hogy ezek biztosítanak jelenleg reprodukálható, nagyléptékű tesztkörnyezetet GUI-ügynökök számára.
A teljesítményértékelések szerint a Ferret-UI Lite különösen jól szerepel rövid, alacsony szintű feladatok esetén, például konkrét gombok, ikonok vagy beállítási pontok azonosításában és aktiválásában. Összetett, több lépésből álló műveletek során azonban a kisebb modell méretéből fakadó korlátok már érzékelhetőbbek. Ez ugyanakkor várható kompromisszum egy olyan rendszernél, amelynek elsődleges célja az eszközön belüli futtatás.

A legnagyobb előny így nem csupán a hatékonyság, hanem az adatvédelem: a Ferret-UI Lite lokálisan fut, így a felhasználói adatokat nem kell felhőalapú szerverekre küldeni feldolgozásra. Egy olyan korszakban, amikor a mesterséges intelligencia egyre mélyebben integrálódik az operációs rendszerekbe és alkalmazásokba, ez komoly stratégiai előnyt jelenthet.
Az Apple fejlesztése azt mutatja, hogy a jövő nem feltétlenül a gigantikus, szerveroldali modelleké – hanem az optimalizált, intelligens, eszközön futó ügynököké, amelyek gyorsak, privátak és célzottan specializáltak.


