Gépi Tanulás Kutatás
A Google AlphaGenome-ja értelmezi a génkifejeződést szabályozó DNS-t
Egy open-weights modell segítheti a tudósokat a genetikai variációk hatásának összehasonlításában, a betegségeket okozó mutációk azonosításában és kezelések kifejlesztésében.
Mi az újdonság: Az AlphaGenome értelmezi az emberi és egér genom azon 98 százalékát, amely nem kódol fehérjéket, de szabályozza a génkifejeződést és más funkciókat. Olyan tulajdonságokat talál meg, mint például hol kezdődik és végződik egy gén egy DNS-szekvenciában; mennyi RNS-t irányít egy sejtnek termelésre; és hol, amikor egy sejt leolvas egy gént, átugorja a génszekvencia egyes részeit, ami egy olyan folyamat, amelyben hibák számos betegséget okozhatnak.
Hogyan működik: A szerzők 64 azonos architektúrájú modellt pretraineltek génszekvenciákon és azok tulajdonságain, majd tudásukat egyetlen modellbe desztillálták. Így az AlphaGenome megtanulta mind a 64 modell összesített teljesítményét. A modelleket egér és emberi DNS-en, valamint gén tulajdonságokon pretrainelték négy nagy nyilvános adatkészletből.
Eredmények: A szerzők összehasonlították az AlphaGenome-ot kilenc korábbi modellel két széleskörű értékelés során: egy génszekvencia tulajdonságainak megtalálása, valamint a mutáció (a szekvencia megváltozása) hatásának előrejelzése ezen tulajdonságokra.
A gén tulajdonságainak megállapításakor az AlphaGenome felülmúlta a korábbi modelleket 24 esetből 22-ben.
A mutációk hatásának előrejelzésekor 26 esetből 24-ben megfelelt vagy felülmúlta a korábbi modelleket.
A szerzők az AlphaGenome teljesítményét valós szituációban is felmérték. Normális DNS-t vettek, és módosították azt, hogy illeszkedjen a T-sejtes akut limfoblasztos leukémia (T-ALL) néven ismert betegség által okozott változásokhoz. Az AlphaGenome-nak betáplálták a módosítatlan és módosított szekvenciákat, és összehasonlították a kimeneteit. A modell által előrejelzett fehérje-expressziós változások illeszkedtek a T-ALL sejtekre gyakorolt hatásának ismert mechanizmusához.
- Bemenet/kimenet: 1 millió DNS bázispár és organizmus típus (ember vagy egér) bemenetként, körülbelül 6000 emberi gén tulajdonság és 1000 egér gén tulajdonság kimenetként
- Architektúra: convolutional neural network (CNN) encoder, transformer, CNN decoder
- Teljesítmény: 50 értékelés során az AlphaGenome 47 esetben megfelelt vagy felülmúlta a korábbi modelleket.
- Elérhetőség: API, weights és inference code nem kereskedelmi célú felhasználásra szabadon licencelhető.
- Mind a 64 modell esetében, adott egy akár 1 millió bázispár hosszúságú DNS-szekvencia, egy CNN minden 128 bázispárról embeddinget készített. Egy transformer dolgozta fel az embeddingeket, lehetővé téve a modell számára, hogy megtanulja a szekvencia távoli részeiben található bázispárok közötti összefüggéseket, egy CNN decoder pedig a transformer kimenetét vette, és különböző tulajdonságokat generált.
- A modellek megtanulták generálni a gének tulajdonságait a bemeneti szekvencián belül 19 loss term segítségével. Például, az egyik term arra ösztönözte a modellt, hogy a termelt RNS mennyiségének előrejelzett eloszlását illessze a valós eloszláshoz, míg egy másik arra ösztönözte a modellt, hogy minden egyes bázispárt osztályozzon aszerint, hogy egy sejt a szekvencia olvasása során átugorná-e azt az adott bázispártól kezdve.
Miért fontos?
Még 15 évvel ezelőtt is széles körben úgy hitték, hogy a nem kódoló DNS-nek egyáltalán nincs funkciója. Azóta a funkcióinak feltárása aprólékos kísérletezést igényelt. Az AlphaGenome ezt a kutatást egy olyan modellbe helyezi, amelyet bárki használhat a genomi rejtett területek és a biológiai folyamatok közötti kapcsolatok megtalálására. Például a modell lehetővé teszi a normális és mutált gének közötti funkcionális különbségek összehasonlítását, olyan információkat tárva fel, amelyek értékesek lehetnek az orvostudományban és más biológiai tudományágakban.