Az OpenToM benchmark a nagy nyelvi modellek tudatelméleti következtetési képességeit értékeli

2024. február 19. · MI Történik? · 1 perc olvasás

Rendelkezik-e a nyelvi modelled tudatelmélettel – „annak felismerésével, hogy mások máshogy érzékelik a világot, és azzal a képességgel, hogy nyomon kövesse ezeket a különbségeket”? Ezt a kérdést remélik megválaszolni a kutatók az Openbook-QA dataset for Theory of Mind (OpenToM) segítségével, amely egy benchmark az LLM-ek emberekről és azok belső életéről alkotott modelljének tesztelésére. Az OpenToM adatkészletet a Kings College London, a Huawei London Research Centre és a The Alan Turing Institute hozta létre. 696 narratívát tartalmaz, amelyek mindegyikéhez 23 kérdés tartozik, lefedve az elsőfokú ToM-ot (a karakterek világérzékelésére kérdezve) és a másodfokú ToM-ot (hogyan érzékelhetnek a karakterek másokat a világban).

Az adatkészlet 696 narratívát és 16 008 kérdést tartalmaz.
Olyan modelleken értékelték, mint a Llama-70B, a Mixtral és a GPT-4-Turbo.
Teszteli az elsőfokú és a másodfokú tudatelméleti képességeket is.
Az eredmények szerint a legmodernebb LLM-ek még messze vannak az emberi szintű teljesítménytől az érzelem-levonás terén.
Bár a modellek egyes feladatokban jól teljesítenek, a mentális állapotokkal kapcsolatos finom érvelés továbbra is kihívást jelent.

Miért fontos?

A ToM-tesztek lényegében azt vizsgálják, hogy egy AI rendszer mennyire tudja nyomon követni az implicit, de rejtett változókat egy összetett helyzetben. Ezért az OpenToM-hoz hasonló tesztek az LLM-ek érvelési képességének közvetett mérőiként is felfoghatók. Bár szkeptikus vagyok azzal kapcsolatban, hogy az OpenToM konkrétan megválaszolja-e a tudatelméleti elemzés filozófiai kérdését, várakozásaim szerint az OpenToM más érvelési benchmarkokkal való párosítása jobb képet ad majd a különböző modellek intelligenciájáról. ---

Eredeti forrás megtekintése (angol) →