Az Apple bemutatja a GSM-Symbolic benchmarkot az LLM-ek matematikai érvelésének értékelésére

2024. október 17. · MI Történik? · 1 perc olvasás

Az Apple bevezette a GSM-Symbolic-ot, egy továbbfejlesztett benchmarkot, amelyet a nagy nyelvi modellek matematikai érvelési képességeinek értékelésére terveztek. A kutatás rávilágít a teljesítmény jelentős törékenységére, amikor a számértékek vagy a kérdésekben szereplő konkrét kitételek megváltoznak.

Kifejezetten az LLM-ek matematikai robusztusságának tesztelésére tervezték
Feltárja, hogyan csökken a teljesítmény, ha a kérdés apró részletei módosulnak
Rámutat a jelenlegi mintafelismerés korlátaira a matematikai feladatokban

Miért fontos?

A benchmark bizonyítja, hogy a jelenlegi LLM-ekből hiányozhat a valódi matematikai érvelés, és ehelyett törékeny mintázatokra támaszkodnak, amelyek elbuknak az adatok kisebb változatai esetén. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Google frissítette a Gemini 1.5 Pro és Flash modelleket alacsonyabb árazással

2024. szeptember 26.

A DeepMind SCoRe módszere külső felügyelet nélkül javítja az LLM-ek önjavító képességét

2024. szeptember 26.

Az Anthropic Contextual Retrieval megoldása akár 49 százalékkal csökkenti a RAG hibákat

2024. szeptember 26.

Tudj meg többet

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?