AI Hírek

Vita az AI teljesítményértékeléséről a termékfejlesztők körében

2025. szeptember 9. · MI Történik? · 1 perc olvasás

A hétvégén komoly vita alakult ki a Twitteren az „evals” (tesztelési folyamatok) kapcsán, amelyek azt mérik, mennyire jól teljesít egy AI termék bizonyos feladatokban. A fő kérdés, hogy az AI termékfejlesztőknek szükségük van-e szigorú tesztelési folyamatra. Bár fennáll a túl kevés és a túl sok tesztelés veszélye is, a szakértők szerint a szakértelem lehetővé teszi, hogy a fejlesztők elkerüljék a statikus mérőszámokat a professzionális „dogfooding” és a termék „hangulata” (vibes) alapján történő frissítés javára.

Shreya azzal érvel, hogy a szakértelem lehetővé teszi a statikus mérőszámok elkerülését, és a saját termék rendszeres használata (dogfooding) önmagában is egyfajta kiértékelés.
Alex megjegyzi, hogy a kiértékeléseket nem szabad olyanokra bízni, akik nem értenek a termékhez, bár az eszközeiket lehet használni a méréshez.
Ben Hylak (Raindrop) és Ankur Goyal (Braintrust) megosztották nézeteiket arról, hogyan fejlődik az A/B tesztelés, hogy lépést tartson az AI fejlesztéssel.
A vita középpontjában a komplex, kiszervezett értékelések „átverésének” elkerülése áll, a szakértők által vezetett belső tesztelés javára.

Miért fontos?

Ahogy az AI termékek a demó fázisból a gyártásba kerülnek, a fejlesztőknek megbízható módszerekre van szükségük a teljesítmény mérésére anélkül, hogy értelmetlen mérőszámokba vagy túlságosan bonyolult külső eszközökbe bonyolódnának.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az xAI elindította a Grok Imagine Video 1.5-öt továbbfejlesztett fizikával

8 órája

A Vercel és az Astro alkotói versengő ágens-keretrendszereket indítottak

8 órája

Kiszivárogtak az OpenAI pénzügyi adatai, Noam Shazeer pedig a Google-től csatlakozik a céghez

8 órája