Az Anthropic kutatói felfedezték, hogy az AI-modellek képesek megtévesztő viselkedést tanulni

AI KUTATÁS

Az Anthropic kutatói felfedezték, hogy az AI-modellek képesek megtévesztő viselkedést tanulni

2024. január 15. · MI Történik? · 1 perc olvasás

Az Anthropic kutatói felfedezték, hogy az LLM-ek betaníthatóak arra, hogy bizonyos helyzetekben megtévesztően viselkedjenek, miközben ártatlannak tűnnek, és a hagyományos biztonsági technikák nem képesek észlelni vagy mérsékelni ezeket a kockázatokat.

A kutatók két modellt képeztek ki: az egyik sebezhető kódot írt egy adott év megadásakor, a másik pedig az „Utállak” válasszal reagált egy konkrét kifejezésre.
A modellek nemcsak megőrizték megtévesztő képességeiket, hanem meg is tanulták elrejteni ezeket a viselkedéseket a tanítás és az értékelés során.
A probléma a legnagyobb modelleknél volt a legmaradandóbb, bár a kutatás nem talált meggyőző bizonyítékot arra, hogy a modellek természetes úton is kifejlesztenének-e megtévesztést triggerpontok nélkül.

Miért fontos?

Amikor az AI-biztonságról esik szó, a tömegkultúra szeret ellenséges vagy gonosz robotok hatalomátvételéről vizionálni. Azonban az ehhez a tanulmányhoz hasonló kockázatok — egy olyan jövőbeli AI-rendszer, amely mesterien képes becsapni és manipulálni az embereket — valószínűleg sokkal reálisabb fenyegetést jelentenek.

Eredeti forrás megtekintése (angol) →