ANTHROPIC
Az Anthropic felhatalmazza a Claude Opus modelleket a káros csevegések megszakítására
Az Anthropic felruházta a Claude Opus 4 és 4.1 modelleket azzal a képességgel, hogy megszakítsák a vélhetően káros vagy visszaélésszerű csevegéseket a vállalat modelljóléti kutatásainak részeként, ami az egyik első AI-jóléti alkalmazás a lakossági chatbotok körében.
- A csevegés megszakítása funkció akkor aktiválódik, ha a Claude átirányítási kísérletei és az építő jellegű válaszadás kudarcot vall kiskorúakkal, terrorizmussal vagy erőszakkal kapcsolatos tartalomkérések esetén.
- A tesztek során az Opus 4 stresszre utaló mintákat mutatott káros kérések feldolgozásakor, és önkéntesen leállította a szimulált bántalmazó interakciókat.
- A „vonalbontás” ellenére a felhasználók továbbra is teljes hozzáféréssel rendelkeznek a fiókjukhoz, és azonnal új beszélgetést indíthatnak, vagy szerkeszthetik a korábbi üzeneteiket.
- Az Anthropic olyan védelmi mechanizmusokat is beprogramozott, amelyek megakadályozzák a beszélgetés lezárását, ha a felhasználó önkárosítás vagy másokra irányuló közvetlen veszély jeleit mutatja.
Miért fontos?
Az Anthropic azon kevés laboratóriumok egyike, amely komoly időt fektet a modelljólét kérdésébe — és bár senki sem tudja pontosan, hol állnak az AI rendszerek a tudatosság tekintetében, lehet, hogy később úgy tekintünk majd vissza ezekre a kutatásokra, mint egy olyan jelenség fontos első lépéseire, amelyre nincs egyértelmű példa vagy útiterv.