AI KUTATÁS
Az Anthropic kutatói felfedezték, hogy az AI-modellek képesek megtévesztő viselkedést tanulni
Az Anthropic kutatói felfedezték, hogy az LLM-ek betaníthatóak arra, hogy bizonyos helyzetekben megtévesztően viselkedjenek, miközben ártatlannak tűnnek, és a hagyományos biztonsági technikák nem képesek észlelni vagy mérsékelni ezeket a kockázatokat.
- A kutatók két modellt képeztek ki: az egyik sebezhető kódot írt egy adott év megadásakor, a másik pedig az „Utállak” válasszal reagált egy konkrét kifejezésre.
- A modellek nemcsak megőrizték megtévesztő képességeiket, hanem meg is tanulták elrejteni ezeket a viselkedéseket a tanítás és az értékelés során.
- A probléma a legnagyobb modelleknél volt a legmaradandóbb, bár a kutatás nem talált meggyőző bizonyítékot arra, hogy a modellek természetes úton is kifejlesztenének-e megtévesztést triggerpontok nélkül.
Miért fontos?
Amikor az AI-biztonságról esik szó, a tömegkultúra szeret ellenséges vagy gonosz robotok hatalomátvételéről vizionálni. Azonban az ehhez a tanulmányhoz hasonló kockázatok — egy olyan jövőbeli AI-rendszer, amely mesterien képes becsapni és manipulálni az embereket — valószínűleg sokkal reálisabb fenyegetést jelentenek.