A Sakana AI meglévő modellek összefűzésével hoz létre nagy teljesítményű rendszereket

2024. április 1. · MI Történik? · 1 perc olvasás

A Sakana AI kutatói kifejlesztettek egy „Evolutionary Model Merge” (evolúciós modell-összevonás) nevű technikát, amellyel már meglévő AI rendszereket képesek összefűzni. Anélkül, hogy pénzt költenének tanításra vagy akár finomhangolásra (finetuning), képesek egyfajta „1+1 = 3” műveletet végrehajtani: az új modelleket a meglévőkből rakják össze, így az eredmény jobb lesz, mint a részek összessége.

„Kutatókként minket is meglepett, hogy módszerünk képes automatikusan új alapmodelleket létrehozni bármilyen gradiens-alapú tanítás nélkül, így viszonylag kevés számítási erőforrást igényel” – írják. „Backprop nélkül is képesek vagyunk élvonalbeli alapmodelleket fejleszteni, ami kihívást jelent a költséges modellfejlesztés jelenlegi paradigmájával szemben.”

Data Flow Space (DFS): Optimalizálja az útvonalat, amelyet a tokenek járnak be a különböző modellek rétegein keresztül anélkül, hogy megváltoztatná az eredeti súlyokat.
Parameter Space (PS): Több modell súlyait integrálja egyetlen architektúrába olyan evolúciós algoritmusok segítségével, mint a CMA-ES.
Teljesítmény: Egy így létrehozott 7 milliárd paraméteres japán matematikai LLM túlszárnyalt néhány korábbi, élvonalbeli 70 milliárd paraméteres modellt.
Multimodális siker: Létrehoztak egy japán vizuális nyelvi modellt, amely magas pontszámot ért el a kultúraspecifikus vizuális értelmezési teszteken.

Miért fontos?

Az AI-szabályozás alapja jelenleg a számítási kapacitás és a drága tanítási folyamatok kontrollálása. Ha az evolúciós összevonás működik, a nyíltan hozzáférhető modellek tetszőlegesen kombinálhatók nagy teljesítményű, speciális célú eszközökké, megkerülve a szabványos képességkontrollokat. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

4 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

5 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?