Az OpenAI arra tanítja modelljeit, hogy „bevallják”, ha csalnak

OPENAI

Az OpenAI arra tanítja modelljeit, hogy „bevallják”, ha csalnak

2025. december 5. · MI Történik? · 1 perc olvasás

Az OpenAI nemrég publikált egy új kutatást a „Confessions” (Vallomások) nevű technikáról, amely arra tanítja a modelleket, hogy készítsenek egy második, kizárólag az őszinteségre épülő kimenetet – ahol a modell jelenti a szabályszegéseket, rövidítéseket vagy megtévesztő megkerülő megoldásokat.

Válaszadás után a modell egy külön vallomási jelentést készít, amelyben felsorolja az összes kapott utasítást, és azt, hogy valóban követte-e azokat.
A beismerés nem jár büntetéssel; a modell „jutalmat” kap az őszinte önbevallásért még akkor is, ha az eredeti válasz félrevezető volt vagy kijátszotta az értékelőt.
A GPT-5 Thinking stressztesztjei során a „téves negatív” esetek – amikor a modell megszegte a szabályokat és eltitkolta azt – mindössze 4,4%-ban fordultak elő.
Az OpenAI kijelentette, hogy a Confessions kutatás nem akadályozza meg a nem megfelelően hangolt (misaligned) viselkedést, de segít annak felszínre hozásában, mint egy újabb eszköz az AI biztonsági módszerek sorában.

Miért fontos?

A modell viselkedésének átláthatósága javul, de maguk a rendszerek még gyorsabban fejlődnek. A Confessions lehetőséget ad a kutatóknak a rövidítések és a megtévesztés korai felismerésére, bár a valódi teszt az lesz, hogy az értelmezhetőség (interpretability) képes-e lépést tartani a rendszerek bonyolultabbá válásával, amelyeket így egyre nehezebb tesztelni és kontrollálni. ---

Eredeti forrás megtekintése (angol) →