Apple
,Aalto Egyetem
,ILuvUI
,HCI
,LLaVA
,Vision-Language Model
,felhasználói felület
,UI
,mesterséges intelligencia
Egy új kutatás az Apple és a finn Aalto Egyetem együttműködésében bemutatta az ILuvUI-t, egy olyan látás-nyelvi modellt, amely képes természetes nyelvű utasítások és képernyőképek alapján értelmezni mobilalkalmazások felhasználói felületeit.
A felhasználói felületek (UI) megértése régóta kihívás a mesterséges intelligencia számára. Míg a legtöbb látás-nyelvi modell (Vision-Language Model, VLM) természetes képeken – például állatokon vagy tájakon – tanul, addig az alkalmazások UI-elemei, mint a listaelemek, jelölőnégyzetek vagy szövegmezők sokkal strukturáltabb és összetettebb információt hordoznak.
A ILuvUI (Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations) célja éppen ez: a szöveges utasításokat és a vizuális adatokat együtt értelmezve pontosabb következtetéseket von le arról, hogyan működik egy alkalmazás felülete. Ehhez a kutatók a nyílt forráskódú LLaVA modellt vették alapul, majd átalakították és finomhangolták, hogy kifejezetten a felhasználói felületek megértésére specializálódjon.

Az új modellt szintetikusan generált adatkészleten képezték: néhány kézzel válogatott, „arany” mintából gépi módszerekkel hoztak létre nagyszámú kép-szöveg párt, így a modell megtanulhatta, hogyan néz ki egy gomb, egy beviteli mező vagy egy kapcsoló, és hogyan kell ezekről emberi nyelven beszélni.
A kutatás eredményei szerint az ILuvUI jelentősen felülmúlta az alapjául szolgáló VLM teljesítményét, amikor mobilalkalmazások UI-jairól szóló kérdések megválaszolásáról vagy utasítások értelmezéséről volt szó. Ez új lehetőségeket nyit meg a felhasználói felületek automatizálása és az intelligens UI-tesztek területén is.
Böngésszen tovább legfrissebb híreink között!
Az ILuvUI tehát egy újabb lépés afelé, hogy az AI ne csak „lássa”, hanem értse is, hogyan működnek az általunk nap mint nap használt digitális felületek.


