AI OKTÁTÁS
Az Evo2 generatív modell az összes életforma biológiai kódját megjósolja
Az Arc Institute közzétette az Evo2-t, a biológia nagyszabású generatív modelljét. A bakteriális, archaea és fág genomok kibővített gyűjteménye mellett az Evo2 információkat tartalmaz emberekről, növényekről és más egysejtű, valamint többsejtű fajokról az eukarióta doménből. A DNS statisztikai tulajdonságainak 9 billió genomikai szekvencia-tokenen keresztül történő megtanulásával az Evo2 képes megjósolni a mutációk hatását a fehérjefunkcióra, az ncRNS funkcióra és az organizmus alkalmasságára. A modell a StripedHyena 2 nevű architektúrát használja, amely lényegesen nagyobb áteresztőképességet biztosít, mint a Transformer alapmodellek a hosszú kontextushosszok feldolgozásakor.
- A modell két változatban érhető el: 7 milliárd paraméteres (2,3 billió token) és 40 milliárd paraméteres (9,3 billió token).
- A tanítási adatok 128 000 teljes genomot fognak át, a DNS-t és RNS-t felépítő nukleotidokra összpontosítva.
- A tanítási folyamat során a kontextushosszt 1 millió tokenre növelték, hogy a modell megtanulja a hosszú genomikai távolságok közötti összefüggéseket.
- Az értelmezhetőségi kutatások megállapították, hogy a modell kifejlesztette a biológiai fogalmak – például a mobil genetikai elemek és a fehérje szekunder szerkezet – belső reprezentációit kifejezett felügyelet nélkül is.
Miért fontos?
Az Evo2 bizonyítja, hogy a következő token előrejelzési (next-token prediction) paradigma alkalmazható komplex biológiai adatokra is, ami potenciálisan olyan AI rendszerekhez vezethet, amelyek emberfeletti érveléssel és betekintéssel rendelkeznek olyan tudományos területeken, amelyeket az emberek még nem értenek teljesen. ---