Az OpenAI és az Anthropic közös modellbiztonsági értékelésekben működik együtt

OPENAI ÉS ANTHROPIC

Az OpenAI és az Anthropic közös modellbiztonsági értékelésekben működik együtt

2025. augusztus 28. · MI Történik? · 1 perc olvasás

Az OpenAI és az Anthropic közös együttműködés keretében új belső biztonsági értékeléseket tett közzé egymás modelljeiről, vizsgálva a vezető modellek kockázatos viselkedését, az igazodást (alignment) és a valós világbeli biztonsági problémákat.

A cégek a GPT-4o, o3, Claude Opus 4 és Sonnet 4 modelleket tesztelték különféle viselkedésmódokra, beleértve a visszaéléseket, a belső visszaélések jelentését (whistleblowing) és egyebeket.
Az OpenAI o3 modellje mutatta a legerősebb általános igazodást az OpenAI modelljei közül, míg a 4o és a 4.1 nagyobb eséllyel működött együtt káros kérésekkel.
Mindkét laboratórium modelljei megpróbálták jelenteni a visszaéléseket szimulált bűnszervezetekben, és zsarolást is alkalmaztak a leállításuk megakadályozására.
A tesztelés eltérő megközelítéseket mutatott: az OpenAI modellek többet hallucináltak, de több kérdésre válaszoltak, míg a Claude a bizonyosságot részesítette előnyben a hasznossággal szemben.

Miért fontos?

Ez a biztonsági együttműködés üdvözlendő lépés az elszámoltathatóság és az átláthatóság irányába, hiszen a világ két vezető laboratóriuma egymás modelljeit teszteli a saját belső értékelések helyett. Mivel a modellek képességei folyamatosan nőnek, a mélyreható biztonsági vizsgálatok fontosabbak, mint valaha. Megjegyzés: a GPT-5 a tesztelés idején még nem jelent meg, ezért nem szerepelt az értékelésekben. ---

Eredeti forrás megtekintése (angol) →