A Sakana AI evolúciós technikákkal ötvözi a modelleket a teljesítmény növelése érdekében
A Sakana AI kutatói az „Evolutionary Model Merge” (Evolúciós Modell-összeolvasztás) nevű technikával kísérleteztek, amely lehetővé teszi a már meglévő AI rendszerek összeillesztését. Ez azért jelentős, mert a modellek tanítására (vagy akár finomhangolására) fordított költségek nélkül képesek egyfajta „1+1 = 3” műveletet végrehajtani: meglévő modellekből új, az alkotóelemek összességénél nagyobb teljesítményű rendszereket hoznak létre.
Amit elértek: Az Evolutionary Model Merge módszerük „evolúciós technikákat alkalmaz, hogy hatékonyan megtalálja a legjobb módokat a különböző nyílt forráskódú (open-source), eltérő képességű modellek kombinálására”. Ezt két fő módon teszik: a modellek adatfolyam-terében (data flow space) és a paraméter-térben (parameter space) történő összeolvasztással.
Az eredmények lenyűgözőek: Megközelítésüket két modell – egy matematikára optimalizált japán LLM és egy japán vizuális nyelvi modell – tanításával tesztelték. „Az evolúció útján létrejött 7 milliárd paraméteres japán matematikai LLM-ünk meglepetésünkre a legmagasabb pontszámot érte el számos más japán LLM benchmarkon, sőt, még néhány korábbi, 70 milliárd paraméteres SOTA japán LLM teljesítményét is túlszárnyalta!” – írták.
- Az adatfolyam-tér (DFS) optimalizálja az inferencia útvonalat, amelyet a tokenek a neurális hálózaton keresztül bejárnak.
- A paraméter-tér (PS) evolúciós algoritmusok, például a CMA-ES segítségével integrálja a súlyokat.
- A módszer új alapmodelleket hoz létre gradiens-alapú tanítás vagy hibavisszaterjesztés (backpropagation) nélkül.
- Az evolvált modellek állami szintű (state-of-the-art) teljesítményt értek el lényegesen kevesebb paraméterrel.
Miért fontos?
Ha az evolúciós modell-összeolvasztás nagy léptékben is működik, a nyíltan hozzáférhető modellek tetszőlegesen kombinálhatóvá válnak meglepően erős képességek eléréséhez, megkérdőjelezve a költséges, számításigényes modellfejlesztés jelenlegi paradigmáját. ---