AI TELJESÍTMÉNYMÉRÉS
A TaxCalcBench megállapította, hogy a vezető AI modellek jelenleg elbuknak a jövedelemadó-bevallásoknál
A Column Tax nevű AI startup létrehozott egy benchmarkot annak tesztelésére, hogy az AI rendszerek mennyire jól tudják kitölteni az adóbevallásokat. Az eredmények azt mutatják, hogy az AI rendszereknek még hosszú utat kell megtenniük: „Be tudja adni az AI az adóbevallását? Még nem” – írja a startup. A TaxCalcBench 51 tesztesetből áll, amelyek a személyi jövedelemadó-bevallások mérsékelt körét képviselik. A tesztesetek tartalmazzák az adóbevallás kiszámításához szükséges összes felhasználói bemenetet és a hagyományos adószámító motoroktól elvárt helyes kimenetet. A TaxCalcBench tartalmaz egy tesztelési keretrendszert, amely összehasonlítja a modellek kimenetét az elvárt eredménnyel. Elemzésünk szerint a modellek következetesen rossz adótáblázatokat használnak, számítási hibákat vétenek, és helytelenül állapítják meg a jogosultságokat, ami összességében hibásan kiszámított adóbevallásokhoz vezet.
- A benchmark 51 tesztesetet tartalmaz, amelyek különböző személyi jövedelemadó-bevallásokat modelleznek
- A tesztelt modellek között szerepel a Gemini 2.5 Pro/Flash és a Claude 4 Opus/Sonnet
- Egyetlen tesztelt modell sem ért el körülbelül 33%-nál magasabb pontosságot a benchmarkon
- A Gemini 2.5 Pro teljesített a legjobban 51,96%-kal, ha 5 dolláros hibahatárt engedélyeztek
- A gyakori hibaforrások közé tartozott a helytelen adótáblázat-használat és a jogosultság-számítási hibák
Miért fontos?
Az ehhez hasonló tesztek jó ellenőrzést jelentenek arra vonatkozóan, hogy az LLM-ek mennyire képesek elvégezni a modern gazdaság feladatait. Ez azért van, mert ez egy ökológiailag érvényes, a világból vett benchmark, amely egy olyan feladatot tükröz, amelyért már most is fizetünk más embereknek. Az eredmények azt sugallják, hogy az LLM-eknek jelentősen robusztusabbá kell válniuk, mielőtt alkalmasak lennének a könyvelők közvetlen kiváltására. ---