A Samsung 7 millió paraméteres modellje rekurzív érveléssel teljesíti túl a vezető LLM-eket
Évek óta az AI-verseny meglehetősen egyértelmű: nagyobb modellek = jobb eredmények. Az OpenAI több milliárd paramétert dob be a GPT-4-nél. A Google a Geminivel válaszol. Mindenki úgy skáláz felfelé, mintha egy fegyverkezési verseny lenne az edzőteremben. Aztán besétál a Samsung egy olyan modellel, amely 10 000-szer kisebb ezeknél az óriásoknál, és zavarba hozza őket az AI egyik legnehezebb tesztjén. Ismerje meg a Tiny Recursive Model-t (TRM). Mindössze 7 millió paraméterrel veri a DeepSeek R1-et (671 milliárd paraméter), a Gemini 2.5 Pro-t és az o3-mini-t az ARC-AGI teszten. Az ARC-AGI egy olyan benchmark, amelyet a valódi érvelés, nem pedig a memorizálás tesztelésére terveztek. Gondoljunk olyan geometriai rejtvényekre, amelyek az emberek számára egyszerűek, de az AI modelleket nevetségessé teszik. A trükk? Ahelyett, hogy masszívvá tennék a modellt, a TRM rekurzív érvelést használ. Elindul egy válasszal, majd többször végigfuttatja azt önmagán, hogy finomítsa az eredményt. Mint egy esszé megírása, amit hatszor átjavítunk a leadás előtt. A Samsung kutatói leegyszerűsítettek egy korábbi, HRM-nek nevezett megközelítést, elhagyva annak komplex „hierarchikus érvelési” elméleteit, amelyekről bebizonyosodott, hogy nem relevánsak a siker szempontjából. A Samsung felismerése: a hasonló vagy jobb eredményekhez mindössze két dolog kell: a jelenlegi válasz és egy munkaterület az érveléshez. Ezután rekurziót kell alkalmazni, amíg eléggé ki nem csiszolódik. A bökkenő: a TRM a paramétereket menetekre (pass) cseréli. Bár maga a modell apró, több javítási lépésre van szüksége (maximum 16), és 3 napig tartott a betanítása 4 darab H100 GPU-n. Tehát nem feltétlenül takarítunk meg számítási kapacitást… csak másképp költjük el. Egy iparágban, amely a méret megszállottja, a Samsung megmutatta, hogy néha a legokosabb lépés kisebbnek lenni és mélyebben gondolkodni.
- 44,6%-os pontosságot ért el az ARC-AGI-1 teszten, megelőzve a Gemini 2.5 Pro-t (37%) és a DeepSeek R1-et (15,8%).
- 7,8%-ot ért el az ARC-AGI-2-n, a nehezebb verzión, ahol a legtöbb LLM 5% alatt teljesít.
- 87%-os pontosságot ért el a Sudoku-Extreme feladaton, a korábbi módszerek 55%-ához képest.
- Nem az agy által inspirált architektúra volt a titok; az iteratív finomítási hurkok és a feladatspecifikus betanítás voltak a valódi mozgatórugók.
- Maximum 16 javítási lépést használ a válaszok rekurzión keresztüli finomításához.
- A modell elég kicsi ahhoz, hogy potenciálisan egy szabványos laptopon is fusson.
Miért fontos?
Ez bizonyítja, hogy az architektúra és a stratégia legyőzheti a nyers erejű skálázást (brute-force). Ha a kisebb modellek képesek felvenni a versenyt a nagyobbakkal specifikus feladatokban, a munkában használt AI eszközök gyorsabbá, olcsóbbá és hozzáférhetőbbé válhatnak masszív felhőinfrastruktúra nélkül is. ---