Az apró AI architektúra 100-szor gyorsabb érvelést tesz lehetővé, mint a hatalmas LLM-ek

AI KUTATÁS

Az apró AI architektúra 100-szor gyorsabb érvelést tesz lehetővé, mint a hatalmas LLM-ek

2025. július 29. · MI Történik? · 1 perc olvasás

A szingapúri székhelyű Sapient Intelligence új AI modellje megkérdőjelezi a mai AI-fejlesztést uraló „a nagyobb jobb” mantrát, és ezt az emberi agy egy trükkjének másolásával éri el. Bemutatkozik a Hierarchical Reasoning Model (HRM), egy apró, 27 millió paraméteres dizájn, amely olyan összetett logikai feladványokat old meg, amelyeken a mai hatalmas AI modellek teljesen elvéreznek. A kutatók szerint a ChatGPT-hez hasonló modellekkel az a probléma, hogy architektúrálisan „sekélyek”. A Chain-of-Thought (CoT) promptolásra támaszkodnak – gyakorlatilag lépésről lépésre beszélik át magukat a problémán –, mint egy mankóra. De a CoT-nál egyetlen rossz kanyar kisiklathatja az egész folyamatot. A HRM más megközelítést alkalmaz: az agy hierarchikus felépítését másolja két összekapcsolt modullal: egy magas szintű „tervezővel”, amely lassan és stratégiailag gondolkodik, valamint egy alacsony szintű „munkással”, amely gyors számításokat végez. Ez a struktúra lehetővé teszi a HRM számára, hogy egyetlen menetben mélyen „átgondoljon” egy problémát, és mindössze néhány példából tanuljon meg érvelni, anélkül, hogy az egész interneten előzetes tanítást (pre-training) kapna.

A HRM apró, 27 millió paraméteres kialakítással rendelkezik, ami jelentősen kisebb a GPT-1 117 millió paraméterénél.
40,3%-os pontszámot ért el az ARC-AGI benchmarkon, megelőzve a Claude 3.7-et (21,2%) és az o3-mini-high-t (34,5%).
A Sudoku-Extreme feladványok 55%-át megoldotta, miközben a Claude 3.7 és az o3-mini-high egyaránt 0%-ot ért el.
Az esetek 74,5%-ában sikeresen navigált át 30x30-as útvesztőkön.
Mindössze két GPU-óra alatt betanítható profi szintű Sudoku megoldására.
A modell open-source, és hatékonyan futtatható helyi gépeken is.

Miért fontos?

A HRM bizonyítja, hogy az architektúra fontosabb, mint a méret. A következmények óriásiak: olcsóbb AI telepítés egyetlen GPU-n, gyorsabb tanítás hónapok helyett órák alatt, és jobb érvelés drága számítási kapacitás nélkül. ---

Eredeti forrás megtekintése (angol) →