DEEP DIVE
Az OpenAI feltárta a hallucinációk kiváltó okát és javaslatot tett az értékelési rendszer javítására
Előfordult már, hogy konkrét tényt kérdezett a ChatGPT-től, és három próbálkozásra három különböző választ kapott? Ennek egy része szándékos a „next-token prediction” (következő elem megjósolása) miatt, más része viszont nem szándékos hallucináció. Az OpenAI közzétett egy új kutatást, amely megmagyarázza, miért találnak ki az AI modellek magabiztosan dolgokat – és ami még fontosabb, hogyan javíthatjuk ezt ki. A kutatás szerint a probléma nem a kevés tanítóadatban rejlik; hanem abban, hogy az AI-t „rossz vizsgázónak” neveljük, aki inkább tippel, mintsem beismerné a bizonytalanságát. Amikor a kutatók nyelvi modelleket tesztelnek, olyan referenciateszteket (benchmarks) használnak, amelyek feleletválasztós vizsgaként működnek: a helyes válasz pontot ér, de a „nem tudom” válaszért nulla pont jár. Ez egy ördögi kört hoz létre, ahol a modellek megtanulnak blöffölni és magabiztosnak tűnő badarságokat generálni, mert ez hozza a legjobb pontszámokat a teszteken.
- A modellek megtanulnak blöffölni: Az AI hihetőnek tűnő nezemséget generál a bizonytalanság beismerése helyett, hogy elkerülje a pontlevonást.
- A jelenlegi tesztek jutalmazzák ezt a viselkedést: A legtöbb értékelés csak a pontosságot méri, az ismeretlen információkkal kapcsolatos őszinteséget nem.
- A probléma fokozódik: Ahogy a modellek egyre fejlettebbé válnak, továbbra is hallucinálnak, mert ez a stratégia eredményezi a legmagasabb pontszámokat.
- Javasolt javítás: A tanítási ösztönzők megváltoztatása úgy, hogy a rossz válaszokat szigorúbban büntessék, mint a „nem tudom” reakciókat, és adjanak részpontszámot a megfelelően jelzett bizonytalanságért.
Miért fontos?
Ha ezt az egész iparágban bevezetik, az olyan AI asszisztenseket eredményezhet, amelyek ténylegesen szólnak, ha nem biztosak valamiben, ahelyett, hogy magabiztosan tálalnának kitalált tényeket. Ez kevesebb félretájékoztatáshoz és nagyobb felhasználói bizalomhoz vezet. ---