Szakértők közösségi forrásból gyűjtenek egy trükkös, új AI-benchmark teszthez
Váratlan és komoly kihívással néznek szembe az AI-benchmarkok tervezői, ugyanis a legújabb mesterséges intelligencia modellek már szinte kisujjból kirázzák a legtöbb tesztet, amit eléjük vetnek. Emiatt napjainkban szinte lehetetlenné válik annak pontos meghatározása, hogy melyik rendszer miben jeleskedik igazán a különböző összetett feladatok során. A probléma hosszú távú megoldására a Center for AI Safety (CAIS) AI-szakértői és a tréningadatokkal foglalkozó Scale AI startup összefogtak, hogy létrehozzanak egy olyan rendkívül trükkös tesztet, amely akár évekre megizzaszthatja a legintelligensebb LLM-eket is. Az ambiciózus kezdeményezés a „Humanity’s Last Exam” (Az emberiség utolsó vizsgája) nevet kapta, és a készítők a lakosság, valamint a szakértők segítségét kérik a kérdések kidolgozásához, hogy közösségi forrásból alkossák meg a világ legnagyobb kihívást jelentő és legátfogóbb AI-benchmarkját.
A kezdeményezés aktualitását az adja, hogy a technológia elképesztő sebességgel fejlődik, és a korábbi mérőszámok elavulttá váltak. Példaként említhető az OpenAI új, úttörő jelentőségű o1 modellje, amely Dan Hendrycks, a CAIS ügyvezető igazgatója szerint valósággal elpusztította a legnépszerűbb reasoning benchmarkokat. Ahogy a különböző nagy nyelvi modellek, vagyis az LLM-ek egyre hatalmasabb mennyiségű adatot kebeleznek be a tanításuk során, a szakértők egyre nehezebb helyzetbe kerülnek az értékeléskor. Ma már rendkívül bonyolult feladat megállapítani azt, hogy a modellek a válaszadás során valódi reasoning folyamatot végeznek-e, vagy egyszerűen csak rendkívül pontosan utánozzák azokat az összefüggéseket és mintákat, amelyeket a korábbi tanulmányaik során már láttak az interneten vagy más adatbázisokban.
A „Humanity’s Last Exam” éppen ezért szakítani kíván a hagyományos tesztelési formákkal, és az elképzelhető legnehezebb problémákat kívánja egy csokorba gyűjteni. A CAIS és a Scale AI arra ösztönzi a nyilvánosságot, hogy gondoljanak valami olyan specifikus dologra, amiről biztosan tudják, hogy kifogna a jelenlegi legfejlettebb AI-rendszereken, majd ezt fogalmazzák meg egy egzakt kérdés formájában. A felhívás szerint a beküldött kérdésekkel szemben szigorú elvárások vannak: mindenképpen eredetinek és teljesen objektívnek kell lenniük. Emellett fontos kritérium, hogy a felvetett problémák a nem szakértők számára kifejezetten nehéznek bizonyuljanak, így biztosítva, hogy a teszt valóban a legmagasabb szintű intellektuális kihívást képviselje.
Az új benchmark egyik legnagyobb ereje a sokszínűségében rejlik majd. A szervezők célja, hogy a teszt a lehető legváltozatosabb tudományterületekről tartalmazzon kérdéseket, így a legkülönfélébb diszciplínák kapnak helyet a projektben. A beküldött feladatok bármilyen összetett területről származhatnak, beleértve a magas szintű matematikát, a precizitást igénylő rakétamérnökséget, vagy éppen az absztrakt gondolkodást követelő analitikus filozófiát. Ezzel a széles körű összefogással a CAIS és a Scale AI egy olyan mérőeszközt adhat a kutatók kezébe, amely hosszú távon is képes lesz érdemben és megbízhatóan differenciálni a jövő szuperintelligens rendszerei között, valódi képet adva azok tényleges képességeiről.
- Az OpenAI új úttörő modellje, az o1 „elpusztította a legnépszerűbb reasoning benchmarkokat” – nyilatkozta Dan Hendrycks, a CAIS ügyvezető igazgatója
- Ahogy az LLM-ek egyre több adatot kebeleznek be, egyre nehezebb megállapítani, hogy a modellek valóban reasoning folyamatot végeznek, vagy egyszerűen csak utánozzák azt, amit már láttak
- A teszt célja, hogy olyan változatos területekről tartalmazzon kérdéseket, mint a matematika, a rakétamérnökség és az analitikus filozófia
- --