Az AI-XR társ-tudós segíti az embereket laboratóriumi kísérletek végzésében
- A LabOS egy szoftver stack-et kombinál tudományos kísérletek felépítéséhez, valamint olyan szoftverrel, amely fizikai kísérletekből származó adatokat gyűjt a laboratóriumokban, és visszatáplálja az információkat a kísérleteket végző embereknek.
- A tudományos kísérleti stack több AI agentből áll, amelyek olyan változatos feladatokat látnak el, mint a tervezés, kódolás és végrehajtás, valamint a kísérletek értékelése, továbbá egy eszköz létrehozó modulból és a hozzá tartozó eszköz adatbázisból, amely segíti a rendszert a különböző digitális és fizikai tudományos berendezésekhez való adaptálódásban.
- A stack másik része a szoftvert kiterjesztett valóság (XR) szemüvegekhez (pl. Apple Vision Pro) köti, amelyeket az emberek viselhetnek, hogy adatokat kapjanak az AI rendszertől és vissza is streameljenek nekik.
- „Az XR szemüvegek felülete (i) lépésről lépésre jeleníti meg a protokollt egy Unity/Android alkalmazásban, (ii) ellenőrzi a fizikai műveleteket az első személyű videófolyamból egy beágyazott VLM vizuális érveléssel történő meghívásával, és (iii) valós idejű, kontextus-érzékeny visszajelzést ad (1b. ábra). Minden adatfolyam időbélyeggel van ellátva és metaadatokkal naplózva az automatizált dokumentáció érdekében” – írják a kutatók.
- Az XR szemüvegek hatékonyságának növelése érdekében a kutatók létrehoztak egy dataset-et és finetune-oltak rajta egy modellt.
- Az LSV dataset 200 videófelvételből áll, amelyek 2-10 percesek, bár néhány akár 45 percig is eltartott, és 7 kutató rögzítette őket különböző laboratóriumi munkatípusok során, beleértve a szövetkultúrákat, műszeröblöket és laboratóriumi padokat.
- Minden egyes felvétel aranystandard laboratóriumi protokoll szerint készült, majd annotálva lett az egyes protokollok kezdő/befejező időpontjaival, specifikus hibákra vagy problémás eseményekre (pl. steril törés) vonatkozó címkékkel, és így tovább.
- A kutatók tesztelték, hogy négy különböző modell mennyire jól tudja követni ezeket a videókat azáltal, hogy megvizsgálták, képesek-e a) leírást generálni a bemutatott protokollról, és b) azonosítani a hibaelhárítást igénylő problémákat minden egyes felvételen.
- Ez azonban nehéznek bizonyult ezeknek a modelleknek: „A Gemini-2.5 Pro mindössze 2,86 pontot ért el az 5-ből a protokoll illeszkedésben, ami mérsékelten jobb, mint az open-source NVIDIA Cosmos-1, amely 2,24 pontot ért el; a probléma/hiba azonosításában a vezető modellek, mint a Gemini, GPT4o, mindössze ~2 pontot tudtak elérni az 5-ből”.
- A kutatók saját modellt készítettek egy Qwen-VL modell fine-tuningolásával három dataset-en: FineBio, JoVE és LSV.
- Az ebből eredő modell, a LabOS-VLM, 7B, 32B, 72B és 235B változatokban érhető el; a 235B modell több mint 90%-os pontosságot ér el a hibaészlelési teljesítményben az értékelési adatok visszatartott tesztkészletén, felülmúlva a Claude Opus-4.1, GPT-5 és Gemini 2.5 Pro modelleket.
- Jól teljesít akkor is, amikor valós kísérletekből származó egocentrikus videókon validálják, helyesen jelölve meg a helytelen és helyes eljárásokat.
Az olyan rendszerek, mint a LabOS, egy olyan jövőre mutatnak, ahol az AI rendszerek kiegészítik és kiterjesztik az emberi tudósok képességeit. „A LabOS prototípusként szolgál arra, hogy milyen is lehet egy AI társ-tudós: egy olyan rendszer, amely lát, érvel és segít a labor működtetésében. Az AI agentek valós idejű, XR-vezérelt ember–AI interakcióval és adatvezérelt érveléssel való párosításával gyorsabb felfedezést, reprodukálható képzést és pontos működést tesz lehetővé” – írják a szerzők. Spekulatívabban megközelítve, a LabOS egy olyan szoftver stack, amely megfelelő hardverrel kombinálva egy napon lehetővé teheti egy szuperintelligencia számára, hogy saját laboratóriumot működtessen, emberi munkásokat fizetve, hogy olyan kísérleteket végezzenek el számára, amelyeket ők esetleg csak homályosan értenek. ---