MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Samsung 7 millió paraméteres modellje rekurzív érveléssel teljesíti túl a vezető LLM-eket

Évek óta az AI-verseny meglehetősen egyértelmű: nagyobb modellek = jobb eredmények. Az OpenAI több milliárd paramétert dob be a GPT-4-nél. A Google a Geminivel válaszol. Mindenki úgy skáláz felfelé, mintha egy fegyverkezési verseny lenne az edzőteremben. Aztán besétál a Samsung egy olyan modellel, amely 10 000-szer kisebb ezeknél az óriásoknál, és zavarba hozza őket az AI egyik legnehezebb tesztjén. Ismerje meg a Tiny Recursive Model-t (TRM). Mindössze 7 millió paraméterrel veri a DeepSeek R1-et (671 milliárd paraméter), a Gemini 2.5 Pro-t és az o3-mini-t az ARC-AGI teszten. Az ARC-AGI egy olyan benchmark, amelyet a valódi érvelés, nem pedig a memorizálás tesztelésére terveztek. Gondoljunk olyan geometriai rejtvényekre, amelyek az emberek számára egyszerűek, de az AI modelleket nevetségessé teszik. A trükk? Ahelyett, hogy masszívvá tennék a modellt, a TRM rekurzív érvelést használ. Elindul egy válasszal, majd többször végigfuttatja azt önmagán, hogy finomítsa az eredményt. Mint egy esszé megírása, amit hatszor átjavítunk a leadás előtt. A Samsung kutatói leegyszerűsítettek egy korábbi, HRM-nek nevezett megközelítést, elhagyva annak komplex „hierarchikus érvelési” elméleteit, amelyekről bebizonyosodott, hogy nem relevánsak a siker szempontjából. A Samsung felismerése: a hasonló vagy jobb eredményekhez mindössze két dolog kell: a jelenlegi válasz és egy munkaterület az érveléshez. Ezután rekurziót kell alkalmazni, amíg eléggé ki nem csiszolódik. A bökkenő: a TRM a paramétereket menetekre (pass) cseréli. Bár maga a modell apró, több javítási lépésre van szüksége (maximum 16), és 3 napig tartott a betanítása 4 darab H100 GPU-n. Tehát nem feltétlenül takarítunk meg számítási kapacitást… csak másképp költjük el. Egy iparágban, amely a méret megszállottja, a Samsung megmutatta, hogy néha a legokosabb lépés kisebbnek lenni és mélyebben gondolkodni.
Miért fontos?

Ez bizonyítja, hogy az architektúra és a stratégia legyőzheti a nyers erejű skálázást (brute-force). Ha a kisebb modellek képesek felvenni a versenyt a nagyobbakkal specifikus feladatokban, a munkában használt AI eszközök gyorsabbá, olcsóbbá és hozzáférhetőbbé válhatnak masszív felhőinfrastruktúra nélkül is. ---

Eredeti forrás megtekintése (angol) →