MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI elindítja a SimpleQA benchmarkot az LLM-ek tényszerűségének és hallucinációinak mérésére

Az OpenAI bemutatta a SimpleQA-t, egy új tényszerűségi benchmarkot, amelyet a nyelvi modellek pontosságának szigorú értékelésére terveztek rövid, ténykereső kérdések esetén. A kezdeti tesztek rávilágítanak arra, hogy még a kiválóan teljesítő modellek, mint például a GPT-4o is küzdenek a precizitással, 40% alatti eredményt elérve az új mérés során.

Miért fontos?

A hallucinációk továbbra is a legfőbb akadályát jelentik az LLM-ek bevezetésének a nagy téttel bíró professzionális környezetekben. Az olyan szabványosított benchmarkok, mint a SimpleQA, elengedhetetlenek a probléma számszerűsítéséhez és a jövőbeli technikai fejlesztések ösztönzéséhez. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Kutatások feltárják: Az LLM-ek specifikus belső tokenekben kódolják az igazságtartalmat
2024. október 10.
Az AutoCoder felülmúlja a GPT-4 Turbót a Human Eval kódolási teljesítménymérésen
2024. május 30.
A HippoRAG keretrendszer akár 20 százalékkal növeli a RAG hatékonyságát
2024. május 30.
Tudj meg többet
OpenAI Sora: AI videógenerálás – minden, amit tudni kell
OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép