A Sakana AI evolúciós technikákkal ötvözi a modelleket a teljesítmény növelése érdekében

2024. április 1. · MI Történik? · 1 perc olvasás

A Sakana AI kutatói az „Evolutionary Model Merge” (Evolúciós Modell-összeolvasztás) nevű technikával kísérleteztek, amely lehetővé teszi a már meglévő AI rendszerek összeillesztését. Ez azért jelentős, mert a modellek tanítására (vagy akár finomhangolására) fordított költségek nélkül képesek egyfajta „1+1 = 3” műveletet végrehajtani: meglévő modellekből új, az alkotóelemek összességénél nagyobb teljesítményű rendszereket hoznak létre. Amit elértek: Az Evolutionary Model Merge módszerük „evolúciós technikákat alkalmaz, hogy hatékonyan megtalálja a legjobb módokat a különböző nyílt forráskódú (open-source), eltérő képességű modellek kombinálására”. Ezt két fő módon teszik: a modellek adatfolyam-terében (data flow space) és a paraméter-térben (parameter space) történő összeolvasztással. Az eredmények lenyűgözőek: Megközelítésüket két modell – egy matematikára optimalizált japán LLM és egy japán vizuális nyelvi modell – tanításával tesztelték. „Az evolúció útján létrejött 7 milliárd paraméteres japán matematikai LLM-ünk meglepetésünkre a legmagasabb pontszámot érte el számos más japán LLM benchmarkon, sőt, még néhány korábbi, 70 milliárd paraméteres SOTA japán LLM teljesítményét is túlszárnyalta!” – írták.

Az adatfolyam-tér (DFS) optimalizálja az inferencia útvonalat, amelyet a tokenek a neurális hálózaton keresztül bejárnak.
A paraméter-tér (PS) evolúciós algoritmusok, például a CMA-ES segítségével integrálja a súlyokat.
A módszer új alapmodelleket hoz létre gradiens-alapú tanítás vagy hibavisszaterjesztés (backpropagation) nélkül.
Az evolvált modellek állami szintű (state-of-the-art) teljesítményt értek el lényegesen kevesebb paraméterrel.

Miért fontos?

Ha az evolúciós modell-összeolvasztás nagy léptékben is működik, a nyíltan hozzáférhető modellek tetszőlegesen kombinálhatóvá válnak meglepően erős képességek eléréséhez, megkérdőjelezve a költséges, számításigényes modellfejlesztés jelenlegi paradigmáját. ---

Eredeti forrás megtekintése (angol) →