MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI elindítja a SimpleQA benchmarkot az LLM-ek tényszerűségének és hallucinációinak mérésére

Az OpenAI bemutatta a SimpleQA-t, egy új tényszerűségi benchmarkot, amelyet a nyelvi modellek pontosságának szigorú értékelésére terveztek rövid, ténykereső kérdések esetén. A kezdeti tesztek rávilágítanak arra, hogy még a kiválóan teljesítő modellek, mint például a GPT-4o is küzdenek a precizitással, 40% alatti eredményt elérve az új mérés során.
Miért fontos?

A hallucinációk továbbra is a legfőbb akadályát jelentik az LLM-ek bevezetésének a nagy téttel bíró professzionális környezetekben. Az olyan szabványosított benchmarkok, mint a SimpleQA, elengedhetetlenek a probléma számszerűsítéséhez és a jövőbeli technikai fejlesztések ösztönzéséhez. ---

Eredeti forrás megtekintése (angol) →