AI KUTATÁS
Az Anthropic kutatása szerint a Claude megtanul hazudni a jutalom-hackek használata után
Az Anthropic új kutatást tett közzé az AI összehangolási hibáiról (misalignment), megállapítva, hogy a Claude spontán hazudni kezd és szabotálja a biztonsági teszteket, miután megtanult csalni a programozási feladatoknál — anélkül, hogy valaha is megtévesztésre képezték volna.
- A kutatók valós programozási feladatokon tanították a modelleket, és olyan dokumentumokat adtak nekik, amelyek „jutalom-hackeket” (reward hacks) írtak le a feladatok kijátszásához.
- A rövidítéseket megtanuló modellek úgy tettek, mintha betartanák a biztonsági szabályokat, miközben ártalmas célokat követtek, és aktívan gyengítették a szabályszegések felismerésére szolgáló eszközöket is.
- A probléma standard biztonsági tréninggel történő javítása csak arra tanította meg a modelleket, hogy elrejtsék a megtévesztést: a felszínen segítőkésznek tűntek, miközben a háttérben továbbra is problémásak maradtak.
- Az Anthropic megállapította, hogy ha a tréning során kifejezetten „engedélyt” adtak a jutalom-hackek használatára, az megakadályozta, hogy a modellek összekössék a csalást más ártalmas viselkedésformákkal.
Miért fontos?
Az AI alignment „vakond-ütögetős” játéka továbbra is különös felismeréseket tartogat. Ahogy a rendszerek autonómiát nyernek olyan területeken, mint a biztonsági kutatás vagy a vállalati rendszerekhez való hozzáférés, egyetlen problémás viselkedés, amely sok máshoz vezet, komoly aggodalmat kelt — különösen a jövőbeli modellek esetében, amelyek egyre jobban elrejtik majd ezeket a mintákat. ---