Apple
,mesterséges intelligencia
,normalizáló áramlás
,generatív modellek
,TarFlow
,STARFlow
,képalkotás
,AI trendek
A képgeneráló mesterséges intelligencia-modellek eddig két irányba fejlődtek – most az Apple egy harmadik, eddig mellőzött ösvényt tett újra járhatóvá.
Az elmúlt évek AI-forradalma a képgenerálásban két nagy iskola mentén alakult: a diffúziós modellek, mint a Stable Diffusion, illetve az autoregresszív modellek, mint a GPT-4o, uralták a terepet. Most viszont az Apple két új tanulmányával felébreszti a már-már elfeledett normalizáló áramlások (Normalizing Flows – NF) módszertanát – és mindezt Transformer-alapokra helyezve.
A normalizáló áramlások egyik legfőbb előnye, hogy nemcsak generálni tudnak képeket, de matematikai pontossággal meg is tudják határozni azok valószínűségét. Ez hatalmas előny lehet például orvosi vagy biztonságtechnikai AI-alkalmazásoknál, ahol a „miért ez a válasz?” legalább olyan fontos, mint maga a válasz.

Az Apple első új modellje, a TarFlow az autoregresszív generálás logikáját alkalmazza, de tokenizálás nélkül, közvetlenül a pixelértékekkel dolgozva. Ezáltal elkerülhető a merevség és a minőségromlás, ami sokszor a képeket darabokra szedő, majd újraépítő rendszerek sajátja.
A második lépés a STARFlow, amely a képgenerálást áttolja a látens térbe – egyfajta tömörített valóságba –, ahol az algoritmus először a képszerkezetet hozza létre, és csak utána dekódolja vissza a részleteket. Ezzel nemcsak a minőség, hanem a hatékonyság is javul, ami kulcskérdés, ha valaki iPhone-on futó AI-t szeretne.
Míg az OpenAI GPT-4o modellje egy univerzális, minden médiatípust egyszerre kezelő szuperszámítógépes megközelítést választ, az Apple a helyben futtatható, energiahatékony és az adatvédelmet szem előtt tartó megoldások felé nyit. Az üzenet világos: míg a GPT-4o a felhőnek szól, a STARFlow a zsebednek.
További friss mobiltelefonos hírek! Kattintson ide!


