A BBC tanulmánya rangsorolta az AI keresőpontosságát, miközben a hallucinációkkal kapcsolatos aggodalmak továbbra is fennállnak

AI KUTATÁS

A BBC tanulmánya rangsorolta az AI keresőpontosságát, miközben a hallucinációkkal kapcsolatos aggodalmak továbbra is fennállnak

2025. február 16. · MI Történik? · 1 perc olvasás

Egy friss BBC tanulmány felmérte a főbb AI keresőeszközök pontosságát hírtartalmak feldolgozása során, és megállapította, hogy még a csúcsminőségű modellek is gyakran küzdenek a tényszerű pontossággal. A közelmúltban megjelent párhuzamos kutatási cikkek szerint a hallucinációk az LLM-ek információfeldolgozásának velejárói lehetnek. Az eredmények rávilágítanak az AI megbízhatóságában mutatkozó jelentős szakadékra mint elsődleges hír- és kutatási forrásra, szigorú emberi tényellenőrzés nélkül.

A ChatGPT Enterprise (GPT-4) teljesített a legjobban, de még így is 15%-os volt a jelentős hibák aránya.
A Perplexity Pro követte 17%-os hibarátával a tényszerű hírtartalmak esetében.
A Microsoft Copilot Pro 27%-os hibarátát mutatott a BBC tesztelésében.
A Google Gemini Standard rendelkezett a legmagasabb jelentős hibaaránnyal, 34%-kal.
A tanulmány megjegyezte, hogy a tesztelés idején ezek az eszközök valószínűleg nem a legújabb 'érvelési' modelleket használták.

Miért fontos?

Ezek a benchmarkok kritikus emlékeztetőül szolgálnak arra, hogy az AI által generált keresési eredmények és kutatási jelentések hajlamosak a hallucinációkra, ezért az emberi ellenőrzés elengedhetetlen minden olyan feladathoz, ahol ténybeli pontosságra van szükség.

Eredeti forrás megtekintése (angol) →