NYELVI MODELLEK
Az Apple kutatása rávilágít az LLM-ek matematikai érvelésének törékenységére a GSM-Symbolic segítségével
Az Apple kutatói bemutatták a GSM-Symbolic-ot, egy szigorúbb benchmarkot, amelyet a nagy nyelvi modellek matematikai érvelésének értékelésére terveztek. Tanulmányuk feltárja, hogy a modellek teljesítménye gyakran jelentősen visszaesik, ha kisebb, lényegtelen változtatásokat eszközölnek a matematikai feladatokban.
- Jelentős teljesítménybeli törékenységet állapított meg a számértékek megváltoztatásakor.
- Kimutatta a pontosság csökkenését, amikor a kérdés egyes kitételeit kismértékben módosítják.
- Bizonyítja, hogy a modellek inkább mintafelismerésre (pattern matching), semmint logikai érvelésre támaszkodhatnak.
- Eszközt kínál az AI matematikai kimenetei következetességének jobb értékeléséhez.
Miért fontos?
A kutatás rávilágít a jelenlegi AI-képességek egy kritikus hiányosságára, azt sugallva, hogy még a csúcskategóriás modellek sem feltétlenül értik az általuk megoldott problémák mögöttes logikáját.