AI KUTATÁS
A BBC tanulmánya rangsorolta az AI keresőpontosságát, miközben a hallucinációkkal kapcsolatos aggodalmak továbbra is fennállnak
Egy friss BBC tanulmány felmérte a főbb AI keresőeszközök pontosságát hírtartalmak feldolgozása során, és megállapította, hogy még a csúcsminőségű modellek is gyakran küzdenek a tényszerű pontossággal. A közelmúltban megjelent párhuzamos kutatási cikkek szerint a hallucinációk az LLM-ek információfeldolgozásának velejárói lehetnek. Az eredmények rávilágítanak az AI megbízhatóságában mutatkozó jelentős szakadékra mint elsődleges hír- és kutatási forrásra, szigorú emberi tényellenőrzés nélkül.
- A ChatGPT Enterprise (GPT-4) teljesített a legjobban, de még így is 15%-os volt a jelentős hibák aránya.
- A Perplexity Pro követte 17%-os hibarátával a tényszerű hírtartalmak esetében.
- A Microsoft Copilot Pro 27%-os hibarátát mutatott a BBC tesztelésében.
- A Google Gemini Standard rendelkezett a legmagasabb jelentős hibaaránnyal, 34%-kal.
- A tanulmány megjegyezte, hogy a tesztelés idején ezek az eszközök valószínűleg nem a legújabb 'érvelési' modelleket használták.
Miért fontos?
Ezek a benchmarkok kritikus emlékeztetőül szolgálnak arra, hogy az AI által generált keresési eredmények és kutatási jelentések hajlamosak a hallucinációkra, ezért az emberi ellenőrzés elengedhetetlen minden olyan feladathoz, ahol ténybeli pontosságra van szükség.