MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az apró AI architektúra 100-szor gyorsabb érvelést tesz lehetővé, mint a hatalmas LLM-ek

A szingapúri székhelyű Sapient Intelligence új AI modellje megkérdőjelezi a mai AI-fejlesztést uraló „a nagyobb jobb” mantrát, és ezt az emberi agy egy trükkjének másolásával éri el. Bemutatkozik a Hierarchical Reasoning Model (HRM), egy apró, 27 millió paraméteres dizájn, amely olyan összetett logikai feladványokat old meg, amelyeken a mai hatalmas AI modellek teljesen elvéreznek. A kutatók szerint a ChatGPT-hez hasonló modellekkel az a probléma, hogy architektúrálisan „sekélyek”. A Chain-of-Thought (CoT) promptolásra támaszkodnak – gyakorlatilag lépésről lépésre beszélik át magukat a problémán –, mint egy mankóra. De a CoT-nál egyetlen rossz kanyar kisiklathatja az egész folyamatot. A HRM más megközelítést alkalmaz: az agy hierarchikus felépítését másolja két összekapcsolt modullal: egy magas szintű „tervezővel”, amely lassan és stratégiailag gondolkodik, valamint egy alacsony szintű „munkással”, amely gyors számításokat végez. Ez a struktúra lehetővé teszi a HRM számára, hogy egyetlen menetben mélyen „átgondoljon” egy problémát, és mindössze néhány példából tanuljon meg érvelni, anélkül, hogy az egész interneten előzetes tanítást (pre-training) kapna.
Miért fontos?

A HRM bizonyítja, hogy az architektúra fontosabb, mint a méret. A következmények óriásiak: olcsóbb AI telepítés egyetlen GPU-n, gyorsabb tanítás hónapok helyett órák alatt, és jobb érvelés drága számítási kapacitás nélkül. ---

Eredeti forrás megtekintése (angol) →