OPENAI
Az OpenAI arra tanítja modelljeit, hogy „bevallják”, ha csalnak
Az OpenAI nemrég publikált egy új kutatást a „Confessions” (Vallomások) nevű technikáról, amely arra tanítja a modelleket, hogy készítsenek egy második, kizárólag az őszinteségre épülő kimenetet – ahol a modell jelenti a szabályszegéseket, rövidítéseket vagy megtévesztő megkerülő megoldásokat.
- Válaszadás után a modell egy külön vallomási jelentést készít, amelyben felsorolja az összes kapott utasítást, és azt, hogy valóban követte-e azokat.
- A beismerés nem jár büntetéssel; a modell „jutalmat” kap az őszinte önbevallásért még akkor is, ha az eredeti válasz félrevezető volt vagy kijátszotta az értékelőt.
- A GPT-5 Thinking stressztesztjei során a „téves negatív” esetek – amikor a modell megszegte a szabályokat és eltitkolta azt – mindössze 4,4%-ban fordultak elő.
- Az OpenAI kijelentette, hogy a Confessions kutatás nem akadályozza meg a nem megfelelően hangolt (misaligned) viselkedést, de segít annak felszínre hozásában, mint egy újabb eszköz az AI biztonsági módszerek sorában.
Miért fontos?
A modell viselkedésének átláthatósága javul, de maguk a rendszerek még gyorsabban fejlődnek. A Confessions lehetőséget ad a kutatóknak a rövidítések és a megtévesztés korai felismerésére, bár a valódi teszt az lesz, hogy az értelmezhetőség (interpretability) képes-e lépést tartani a rendszerek bonyolultabbá válásával, amelyeket így egyre nehezebb tesztelni és kontrollálni. ---