Az Apple kutatása rávilágít az LLM-ek matematikai érvelésének törékenységére a GSM-Symbolic segítségével

NYELVI MODELLEK

Az Apple kutatása rávilágít az LLM-ek matematikai érvelésének törékenységére a GSM-Symbolic segítségével

2024. október 17. · MI Történik? · 1 perc olvasás

Az Apple kutatói bemutatták a GSM-Symbolic-ot, egy szigorúbb benchmarkot, amelyet a nagy nyelvi modellek matematikai érvelésének értékelésére terveztek. Tanulmányuk feltárja, hogy a modellek teljesítménye gyakran jelentősen visszaesik, ha kisebb, lényegtelen változtatásokat eszközölnek a matematikai feladatokban.

Jelentős teljesítménybeli törékenységet állapított meg a számértékek megváltoztatásakor.
Kimutatta a pontosság csökkenését, amikor a kérdés egyes kitételeit kismértékben módosítják.
Bizonyítja, hogy a modellek inkább mintafelismerésre (pattern matching), semmint logikai érvelésre támaszkodhatnak.
Eszközt kínál az AI matematikai kimenetei következetességének jobb értékeléséhez.

Miért fontos?

A kutatás rávilágít a jelenlegi AI-képességek egy kritikus hiányosságára, azt sugallva, hogy még a csúcskategóriás modellek sem feltétlenül értik az általuk megoldott problémák mögöttes logikáját.

Eredeti forrás megtekintése (angol) →