Az OpenToM benchmark a nagy nyelvi modellek tudatelméleti következtetési képességeit értékeli
Rendelkezik-e a nyelvi modelled tudatelmélettel – „annak felismerésével, hogy mások máshogy érzékelik a világot, és azzal a képességgel, hogy nyomon kövesse ezeket a különbségeket”? Ezt a kérdést remélik megválaszolni a kutatók az Openbook-QA dataset for Theory of Mind (OpenToM) segítségével, amely egy benchmark az LLM-ek emberekről és azok belső életéről alkotott modelljének tesztelésére. Az OpenToM adatkészletet a Kings College London, a Huawei London Research Centre és a The Alan Turing Institute hozta létre. 696 narratívát tartalmaz, amelyek mindegyikéhez 23 kérdés tartozik, lefedve az elsőfokú ToM-ot (a karakterek világérzékelésére kérdezve) és a másodfokú ToM-ot (hogyan érzékelhetnek a karakterek másokat a világban).
- Az adatkészlet 696 narratívát és 16 008 kérdést tartalmaz.
- Olyan modelleken értékelték, mint a Llama-70B, a Mixtral és a GPT-4-Turbo.
- Teszteli az elsőfokú és a másodfokú tudatelméleti képességeket is.
- Az eredmények szerint a legmodernebb LLM-ek még messze vannak az emberi szintű teljesítménytől az érzelem-levonás terén.
- Bár a modellek egyes feladatokban jól teljesítenek, a mentális állapotokkal kapcsolatos finom érvelés továbbra is kihívást jelent.
Miért fontos?
A ToM-tesztek lényegében azt vizsgálják, hogy egy AI rendszer mennyire tudja nyomon követni az implicit, de rejtett változókat egy összetett helyzetben. Ezért az OpenToM-hoz hasonló tesztek az LLM-ek érvelési képességének közvetett mérőiként is felfoghatók. Bár szkeptikus vagyok azzal kapcsolatban, hogy az OpenToM konkrétan megválaszolja-e a tudatelméleti elemzés filozófiai kérdését, várakozásaim szerint az OpenToM más érvelési benchmarkokkal való párosítása jobb képet ad majd a különböző modellek intelligenciájáról. ---