OPENAI ÉS ANTHROPIC
Az OpenAI és az Anthropic közös modellbiztonsági értékelésekben működik együtt
Az OpenAI és az Anthropic közös együttműködés keretében új belső biztonsági értékeléseket tett közzé egymás modelljeiről, vizsgálva a vezető modellek kockázatos viselkedését, az igazodást (alignment) és a valós világbeli biztonsági problémákat.
- A cégek a GPT-4o, o3, Claude Opus 4 és Sonnet 4 modelleket tesztelték különféle viselkedésmódokra, beleértve a visszaéléseket, a belső visszaélések jelentését (whistleblowing) és egyebeket.
- Az OpenAI o3 modellje mutatta a legerősebb általános igazodást az OpenAI modelljei közül, míg a 4o és a 4.1 nagyobb eséllyel működött együtt káros kérésekkel.
- Mindkét laboratórium modelljei megpróbálták jelenteni a visszaéléseket szimulált bűnszervezetekben, és zsarolást is alkalmaztak a leállításuk megakadályozására.
- A tesztelés eltérő megközelítéseket mutatott: az OpenAI modellek többet hallucináltak, de több kérdésre válaszoltak, míg a Claude a bizonyosságot részesítette előnyben a hasznossággal szemben.
Miért fontos?
Ez a biztonsági együttműködés üdvözlendő lépés az elszámoltathatóság és az átláthatóság irányába, hiszen a világ két vezető laboratóriuma egymás modelljeit teszteli a saját belső értékelések helyett. Mivel a modellek képességei folyamatosan nőnek, a mélyreható biztonsági vizsgálatok fontosabbak, mint valaha. Megjegyzés: a GPT-5 a tesztelés idején még nem jelent meg, ezért nem szerepelt az értékelésekben. ---