AI KUTATÁS
A Sakana AI meglévő modellek összefűzésével hoz létre nagy teljesítményű rendszereket
A Sakana AI kutatói kifejlesztettek egy „Evolutionary Model Merge” (evolúciós modell-összevonás) nevű technikát, amellyel már meglévő AI rendszereket képesek összefűzni. Anélkül, hogy pénzt költenének tanításra vagy akár finomhangolásra (finetuning), képesek egyfajta „1+1 = 3” műveletet végrehajtani: az új modelleket a meglévőkből rakják össze, így az eredmény jobb lesz, mint a részek összessége.
„Kutatókként minket is meglepett, hogy módszerünk képes automatikusan új alapmodelleket létrehozni bármilyen gradiens-alapú tanítás nélkül, így viszonylag kevés számítási erőforrást igényel” – írják. „Backprop nélkül is képesek vagyunk élvonalbeli alapmodelleket fejleszteni, ami kihívást jelent a költséges modellfejlesztés jelenlegi paradigmájával szemben.”
- Data Flow Space (DFS): Optimalizálja az útvonalat, amelyet a tokenek járnak be a különböző modellek rétegein keresztül anélkül, hogy megváltoztatná az eredeti súlyokat.
- Parameter Space (PS): Több modell súlyait integrálja egyetlen architektúrába olyan evolúciós algoritmusok segítségével, mint a CMA-ES.
- Teljesítmény: Egy így létrehozott 7 milliárd paraméteres japán matematikai LLM túlszárnyalt néhány korábbi, élvonalbeli 70 milliárd paraméteres modellt.
- Multimodális siker: Létrehoztak egy japán vizuális nyelvi modellt, amely magas pontszámot ért el a kultúraspecifikus vizuális értelmezési teszteken.
Miért fontos?
Az AI-szabályozás alapja jelenleg a számítási kapacitás és a drága tanítási folyamatok kontrollálása. Ha az evolúciós összevonás működik, a nyíltan hozzáférhető modellek tetszőlegesen kombinálhatók nagy teljesítményű, speciális célú eszközökké, megkerülve a szabványos képességkontrollokat. ---