LABBench2: Az AI-nak hiányoznak a sokoldalú tudományos készségei a biológiai kutatáshoz
Az Edison Scientific AI startup, a University of California at Berkeley, a FutureHouse és a Broad Institute kutatói elkészítették és kiadták a LABBench2-t, egy tesztet annak értékelésére, hogy az AI rendszerek mennyire képesek támogatni és felgyorsítani a tudományt. A LABBench2 1900 feladatból áll, amelyek „az irodalom megértését és lekérését, az adatokhoz való hozzáférést, a protokollok hibaelhárítását, a molekuláris biológiai segítséget és a kísérletek tervezését” ölelik fel.
Az AI rendszerek nem sokoldalú tudósok: A LABBench2 megmutatja a frontier modellek hiányosságait – egyetlen modell sem igazán jó abban, hogy több biológiai adatbázist összevetve adjon választ, és a modellek nem jók a tudományos ábrák és táblázatok tanulmányozásában sem. Összehasonlításképpen, a modellek elég jók abban, hogy teljes szövegű szabadalmakban és laboratóriumi kísérleti cikkekben keressenek válaszokat kérdésekre. Általánosságban elmondható, hogy javítható a feladatok teljesítménye, ha a modellek hozzáférést kapnak olyan eszközökhöz, amelyek segítenek nekik a hiányosságaikkal való megbirkózásban.
- Adatlekérési és lokalizációs képességek; „a legnagyobb teljesítménycsökkenés akkor jelentkezik, amikor a modelleknek (i) azonosítaniuk kell a megfelelő forrást, majd (ii) lokalizálniuk kell egy specifikus ábrát/táblázatot/kiegészítő információt egy hosszú dokumentumon belül.”
- Pontos bemenetek hűséges kezelése; „még akkor is, ha a szükséges művelet fogalmilag egyenesen egyszerű, a pontosság az pontos string-szintű hűségtől és az eszközök helyes használatától függ. Ez egy jól ismert hibaforrás, és emberi szakértők számos célspecifikus eszközt építettek olyan dolgok kezelésére, mint a DNS-szekvencia manipuláció hűséges végrehajtása komplex protokollokon belül.”
- Jobb tudományos „ízlés” kialakítása; a LABBench2 egyik összetevője, a SourceQuality, arra készteti az AI rendszereket, hogy „feltárják azt az episztemológiailag legrelevánsabb okot, amiért egy tanulmány alkalmatlan egy kutatási kérdésre”. Az AI rendszerek még mindig nem túl jók ebben.
Miért fontos?
Miért fontos ez – ahhoz, hogy az AI valóban megváltoztassa a világot, tennie kell dolgokat a fizikai világban: Az olyan benchmarkok, mint a LABBench2, segítenek majd nekünk kitalálni, mikor tudja az AI hatékonyan átugrani a bitek manipulálásától az atomok manipulálásáig – és amint az atomok birodalma ugyanolyan intuitívvá válik számára, mint a digitális világ, valószínűleg óriási növekedést fogunk látni az AI-nak tulajdonítható gazdasági és tudományos tevékenységben. ---