INTELLIGENS BETEKINTÉS
A DeepMind benchmark tesztje rávilágít, hogy a hosszú kontextusú modellek nehézségekkel küzdenek a komplex érvelés terén
A Google DeepMind „Michelangelo-tesztje” jelentős korlátokat tárt fel még a legfejlettebb, hosszú kontextusú AI modelleknél is. Bár ezek a modellek technikailag képesek egyszerre több millió szó feldolgozására, a benchmark teszt azt mutatja, hogy gyakran küzdenek az összetett érvelési feladatokkal ugyanazon a hosszú kontextuson belül. Ez arra utal, hogy pusztán az adatok mennyiségének növelése, amit egy modell „lát”, nem javítja automatikusan a megértési képességét.
- A benchmark teszt kifejezetten az érvelés mélységét vizsgálja a hatalmas kontextusablakokon belül.
- Még a csúcskategóriás modellek is nehézségekbe ütköztek, amikor a releváns információk nagy adathalmazokba voltak eltemetve.
- Az OpenAI bevezette az MLE-bench-et is, hogy az AI ágenseket valós kihívások során hasonlítsa össze emberi szakértőkkel.
- Az eredmények azt jelzik, hogy a hosszú kontextusú feldolgozás és a logikai érvelés továbbra is különálló akadályokat jelentenek az AI fejlesztés számára.
Miért fontos?
A hatalmas dokumentumhalmazok elemzésére AI-t használó vállalkozások számára ezek az eredmények emlékeztetőül szolgálnak: a nagyobb kontextusablak nem garantálja minden esetben a pontos vagy logikus meglátásokat.