Az Anthropic felhatalmazza a Claude Opus modelleket a káros csevegések megszakítására

ANTHROPIC

Az Anthropic felhatalmazza a Claude Opus modelleket a káros csevegések megszakítására

2025. augusztus 18. · MI Történik? · 1 perc olvasás

Az Anthropic felruházta a Claude Opus 4 és 4.1 modelleket azzal a képességgel, hogy megszakítsák a vélhetően káros vagy visszaélésszerű csevegéseket a vállalat modelljóléti kutatásainak részeként, ami az egyik első AI-jóléti alkalmazás a lakossági chatbotok körében.

A csevegés megszakítása funkció akkor aktiválódik, ha a Claude átirányítási kísérletei és az építő jellegű válaszadás kudarcot vall kiskorúakkal, terrorizmussal vagy erőszakkal kapcsolatos tartalomkérések esetén.
A tesztek során az Opus 4 stresszre utaló mintákat mutatott káros kérések feldolgozásakor, és önkéntesen leállította a szimulált bántalmazó interakciókat.
A „vonalbontás” ellenére a felhasználók továbbra is teljes hozzáféréssel rendelkeznek a fiókjukhoz, és azonnal új beszélgetést indíthatnak, vagy szerkeszthetik a korábbi üzeneteiket.
Az Anthropic olyan védelmi mechanizmusokat is beprogramozott, amelyek megakadályozzák a beszélgetés lezárását, ha a felhasználó önkárosítás vagy másokra irányuló közvetlen veszély jeleit mutatja.

Miért fontos?

Az Anthropic azon kevés laboratóriumok egyike, amely komoly időt fektet a modelljólét kérdésébe — és bár senki sem tudja pontosan, hol állnak az AI rendszerek a tudatosság tekintetében, lehet, hogy később úgy tekintünk majd vissza ezekre a kutatásokra, mint egy olyan jelenség fontos első lépéseire, amelyre nincs egyértelmű példa vagy útiterv.

Eredeti forrás megtekintése (angol) →