
Az Apple csendben megjelentetett egy új mesterséges intelligencia modellt a Hugging Face-en, amely jelentősen eltér a hagyományos nyelvi modellek megszokott működésétől. Ahelyett, hogy lineárisan, tokenről tokenre építené fel a kódot, ez a modell képes párhuzamosan és globálisan dolgozni – egyszerre több kódrészt is képes javítani vagy generálni. Az eredmény: gyorsabb és strukturáltabb kódgenerálás, amely teljesítményében vetekszik a legjobb nyílt forráskódú modellekkel.
A modern nyelvi modellek többsége autoregresszív módon működik, azaz tokenenként építi fel a szöveget, mindig az előző kontextus alapján. Ez a módszer hasznos, de lineáris és időigényes. Ezzel szemben a diffúziós alapú modellek – amelyeket eddig főleg képgenerálásra használtak – egyszerre több lépésen keresztül, zajos adatokból fokozatosan jutnak el a kívánt végeredményhez. Ez lehetővé teszi, hogy a kód globális szerkezete koherensebb legyen, nemcsak soronként, hanem kontextusban is.
A szöveggenerálásra alkalmazott diffúziós modellek már korábban is ígéretes eredményeket mutattak, különösen ott, ahol a strukturált kimenet elengedhetetlen – például a programozás területén. A diffúzió lehetővé teszi, hogy a modell egy vázlatos, „zajos” kódból induljon, és azt fokozatosan finomítsa, míg egy teljes, működő megoldássá válik.
Az Apple által kiadott modell, a DiffuCoder-7B-cpGRPO, a DiffuCoder nevű tanulmányon alapul, amely új irányokat keresett a maszkolt diffúziós modellek alkalmazására a kódgenerálásban. Egyik különlegessége, hogy a „mintavételi hőmérséklet” beállításával szabályozható, mennyire szigorúan követi a balról jobbra történő generálást. Magasabb hőmérsékleten a modell rugalmasabban, nem-lineáris sorrendben dolgozik, míg alacsonyabb értéken inkább hagyományosan viselkedik. Ez a fajta szabályozhatóság különösen értékes, amikor a kód szerkezetének globális koherenciája fontosabb, mint az egymást követő utasítások sorrendje.
Egy további újítás a coupled-GRPO eljárás, amely egy extra tanítási lépésként került bevezetésre. Ez segít abban, hogy a modell kevesebb iterációval, mégis jobb minőségű kódot állítson elő. A tanulmány szerint ennek eredményeként a dekódolási lépések számát csökkenteni lehetett, miközben a kód minősége alig romlott – ez különösen figyelemre méltó teljesítmény diffúziós modellek esetén.
Tok kell a mobilodhoz? Nézd meg itt!
A modell nem a nulláról indult: alapját az Alibaba nyílt forrású modellje, a Qwen2.5-7B adta. Ezt először az Alibaba optimalizálta kódgenerálásra (Qwen2.5-Coder-7B), majd az Apple továbbfejlesztette diffúziós dekódolással, és egy újabb tanítási körrel még pontosabbá és utasítás-orientáltabbá tette. Több mint 20 000 gondosan válogatott kódolási példán tanították, így jött létre a végleges, finomhangolt verzió.
Az Apple új modellje 4,4%-os javulást mutatott egy népszerű kódolási benchmarkon, miközben kevésbé támaszkodik a hagyományos token-sorrendre. Bár még nem éri el a GPT-4 vagy a Google Gemini szintjét, a DiffuCoder egyértelmű előrelépés a diffúzió-alapú kódgenerálás terén. A 7 milliárd paraméteres méret korlátai és a diffúziós módszer sajátosságai ellenére ez a modell komoly alapot teremt az Apple jövőbeli generatív AI-fejlesztéseihez.