AI KUTATÁS
Walrus: Dinamikus folyadékmodell oldja meg a transzformátor pixelesedését
Az összetett fizikai rendszerek szimulálása hagyományos numerikus módszerekkel lassú és költséges, a gépi tanuláson alapuló szimulációk pedig általában egy adott rendszertípusra specializálódnak, például a csőben lévő vízre vagy egy bolygót körülölelő légkörre. A kutatók egy általános, transzformátor alapú modellt építettek folyadékok, gázok és plazmák számára.
Mi az újdonság: Michael McCabe és kollégái a Polymathic AI Collaboration nevű, több intézményből álló, multidiszciplináris tudományos AI laborból kiadták a Walrus-t, egy 1,3 milliárd paraméteres modellt, amely szimulálja, hogyan mozognak, interakcióba lépnek és változnak a folyadékok az idő múlásával. A modell szabadon elérhető MIT licenc alatt.
Kulcsfontosságú felismerés: A modellek gyakran nem tudják szimulálni a kaotikus rendszereket, amelyek nagyon érzékenyek a kezdeti feltételekre, hosszú időn keresztül, mert a hibák az idővel összeadódnak. A transzformátorokban ezek a hibák az aliasingból is erednek, ahol a hibák több időintervallumon keresztül halmozódnak fel bizonyos helyeken. (Az ebből eredő műtárgyak a képszerkesztésben a pixelesedésre hasonlítanak.) Az adatok véletlenszerű remegtetése vagy időbeli eltolása minden időintervallumban, mielőtt visszatáplálnák a modellbe, csökkenti ezeket a műtárgyakat.
Hogyan működik: A Walrus a fizikai rendszer következő állapotát becsüli meg az előző állapotok sorozata alapján. Ez magában foglalja (i) két kódolót, egyet 2D adatokhoz, például sebességhez, és egyet 3D adatokhoz, például térfogathoz, amelyek tömörítik a fizikai rendszer korábbi pillanatfelvételeit, vagyis a képkockákat tokenekké; (ii) egy felosztott figyelmi blokkot, amely a következő képkockát reprezentáló tokeneket generálja; és (iii) két dekódolót (2D és 3D), amelyek ezeket a tokeneket a következő képkockává alakítják.
Gondolataink: A fizika elmozdulása a specializált numerikus megoldóktól és speciális modellektől az általános célú transzformátorok felé a természetes nyelvi feldolgozás fejlődését tükrözi a feladatspecifikus modellektől az LLM-ekig. Ahogy az LLM-ek megtanulnak olvasni és a legvalószínűbb következő szavakat megjósolni számos feladatban és nyelven, a különböző adatokon képzett transzformátorok is képeseknek tűnnek a különböző anyagok viselkedésének előrejelzésére széles körű tartományokban.
- A szerzők a rendszert előzetesen betanították 63 fizikai tulajdonság (például sűrűség, nyomás és sebesség) előrejelzésére a folyadékmozgás következő képkockájában. Az edzésadatok körülbelül 8 millió 2D-s példát és 4 millió 3D-s mintát tartalmaztak két adatkészletből, amelyek 19 fizikai területet fednek le, mint például az akusztika, az asztrofizika és a nem-newtoni folyadékok, amelyek nyomás alatt változtatják viszkozitásukat.
- Az előre betanított modellt további 500 000 példával finomhangolták három folyadékdinamikai adatkészletből, valamint az előzetes betanítási adatkészletekből visszatartott adatokkal.
- A 2D és 3D adatok kezeléséhez a rendszer minden 2D bemenetet 3D térbe vetít, a 2D bemeneteket egyes mélységű térfogatként kezelve.
- Az aliasing hibák felhalmozódásának megakadályozása érdekében véletlenszerűen eltolja a bemeneti adatokat kódolás előtt, és minden token generálása után alkalmazza az inverz eltolást. Ez a technika elosztotta a hibákat minden időintervallumban, ahelyett, hogy lehetővé tette volna azok felhalmozódását bizonyos helyeken.
- A Walrus a legalacsonyabb variancia-skálázott gyökér középnégyzetes hibát (VRMSE) érte el 18 domainben a 19-ből egylépéses előrejelzések esetén, mint például egy alulról fűtött és felülről hűtött folyadék sebességi és hőmérsékleti állapota.
- A Walrus átlagosan 63,6 százalékkal csökkentette az egylépéses hibát a legjobb versenytárs modellekhez képest.
- 20-60 lépésen keresztül a Walrus 19 domainből 12-ben érte el a legalacsonyabb VRMSE-t.
- A jittering a forgatókönyvek 89 százalékában csökkentette a hosszú távú hibát.
Miért fontos?
A Walrus potenciálisan felgyorsítja a szimulációkat olyan területeken, mint a klímatudomány, az űrkutatás és az anyagtudomány. Ráadásul a szerzők remegtetési technikája javíthatja a látás- és videógenerálási modelleket azáltal, hogy elnyomja a transzformátor architektúrákra jellemző műtárgyakat. Valójában a látás transzformátorokra jellemző pixel-szerű műtárgyak vezették őket ehhez a megközelítéshez.