A TaxCalcBench megállapította, hogy a vezető AI modellek jelenleg elbuknak a jövedelemadó-bevallásoknál

2025. augusztus 4. · MI Történik? · 1 perc olvasás

A Column Tax nevű AI startup létrehozott egy benchmarkot annak tesztelésére, hogy az AI rendszerek mennyire jól tudják kitölteni az adóbevallásokat. Az eredmények azt mutatják, hogy az AI rendszereknek még hosszú utat kell megtenniük: „Be tudja adni az AI az adóbevallását? Még nem” – írja a startup. A TaxCalcBench 51 tesztesetből áll, amelyek a személyi jövedelemadó-bevallások mérsékelt körét képviselik. A tesztesetek tartalmazzák az adóbevallás kiszámításához szükséges összes felhasználói bemenetet és a hagyományos adószámító motoroktól elvárt helyes kimenetet. A TaxCalcBench tartalmaz egy tesztelési keretrendszert, amely összehasonlítja a modellek kimenetét az elvárt eredménnyel. Elemzésünk szerint a modellek következetesen rossz adótáblázatokat használnak, számítási hibákat vétenek, és helytelenül állapítják meg a jogosultságokat, ami összességében hibásan kiszámított adóbevallásokhoz vezet.

A benchmark 51 tesztesetet tartalmaz, amelyek különböző személyi jövedelemadó-bevallásokat modelleznek
A tesztelt modellek között szerepel a Gemini 2.5 Pro/Flash és a Claude 4 Opus/Sonnet
Egyetlen tesztelt modell sem ért el körülbelül 33%-nál magasabb pontosságot a benchmarkon
A Gemini 2.5 Pro teljesített a legjobban 51,96%-kal, ha 5 dolláros hibahatárt engedélyeztek
A gyakori hibaforrások közé tartozott a helytelen adótáblázat-használat és a jogosultság-számítási hibák

Miért fontos?

Az ehhez hasonló tesztek jó ellenőrzést jelentenek arra vonatkozóan, hogy az LLM-ek mennyire képesek elvégezni a modern gazdaság feladatait. Ez azért van, mert ez egy ökológiailag érvényes, a világból vett benchmark, amely egy olyan feladatot tükröz, amelyért már most is fizetünk más embereknek. Az eredmények azt sugallják, hogy az LLM-eknek jelentősen robusztusabbá kell válniuk, mielőtt alkalmasak lennének a könyvelők közvetlen kiváltására. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A ChinaHeritaQA benchmark UNESCO világörökségi helyszíneken teszteli a látás-nyelvi modelleket

2026. június 15.

Az LLM-ek képesek megtanulni a társadalmi intézmények és szabályozások kijátszását

2026. június 8.

Az OpenAI közzétette a GDPval benchmarkot az AI valós gazdasági feladatokban nyújtott teljesítményének mérésére

2025. szeptember 29.

Tudj meg többet

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?

AI és a kritikai gondolkodás: Hogyan ismerjük fel a hallucinációkat?