HÍREK A FRONTIERRŐL
A vezető AI modellek elbuknak az ARC-AGI-3 érvelési és tanulási teszten
Sikeres vizsgák: Az AI modellek már sikeresen teljesítették a könyvvizsgálói vizsgát, a jogi szakvizsgát és más, közismerten nehéz teszteket. Azonban az ARC-AGI-3 interaktív érvelési teszt szerint az AI-ból még mindig hiányzik egy kritikus képesség: a tanulás képessége. Videójátékok: Az ARC-AGI-3 teszt utasítások, szabályok vagy célok nélkül dobja be az AI modelleket egy videójáték-szintre – arra kényszerítve őket, hogy maguktól jöjjenek rá, hogyan kell játszani és hogyan lehet hatékonyan nyerni. A legtöbb ember könnyen megoldja a feladatot. De a vezető modellek? Nem igazán. A Gemini, a Claude, a ChatGPT és a Grok mind 1% alatt teljesített. Tudáshézag: A mai legfejlettebb modellek lényegében elképesztő memorizáló gépek. Hatalmas adathalmazokon tanították őket, majd ezt az információt gyorsan előhívják a természetes nyelvű kérdések megválaszolásához. De a memorizálás nem egyenlő a gondolkodással. Ezért képes az AI átmenni egy olyan nehéz vizsgán, amire kiképezték – de küzd egy új videójáték-szinttel.
- A vezető modellek, köztük a Gemini, a Claude és a ChatGPT kevesebb mint 1%-ot értek el a teszten
- A teszt megköveteli, hogy a modellek előzetes utasítások nélkül jöjjenek rá a szabályokra és célokra
- A legtöbb ember könnyen megoldja az ARC-AGI-3 feladatait
- A teszt novemberig nyitva áll, hogy az AI laboratóriumoknak legyen idejük javítani a modellek teljesítményén
Miért fontos?
Az eredmények rávilágítanak arra, hogy a mai AI modellek inkább fejlett memorizáló eszközök, semmint olyan entitások, amelyek képesek valódi, független érvelésre és tanulásra újszerű környezetekben.