Az Anthropic új teszteket mutatott be a potenciális AI-szabotázs kockázatainak észlelésére

AI KUTATÁS

Az Anthropic új teszteket mutatott be a potenciális AI-szabotázs kockázatainak észlelésére

2024. október 21. · MI Történik? · 1 perc olvasás

Az Anthropic új értékelési módszereket tett közzé, amelyek célja a fejlett AI rendszerek potenciális szabotázsképességeinek észlelése, fókuszálva azokra a kockázatokra, amelyek akkor merülhetnek fel, ha a modellek megpróbálják kijátszani az emberi felügyeletet vagy döntéshozatalt.

Négy új értékelési szempontot dolgoztak ki: emberi döntések szabotálása, kódszabotázs, sandbagging (képességek szándékos elrejtése) és a felügyelet aláásása.
Az értékelések szimulált forgatókönyveket használnak a modellek azon képességének tesztelésére, hogy manipulálják és megtévesszék az embereket, hibákat illesszenek a kódba, vagy aláássák a monitorozó rendszereket.
A teszteket a Claude 3 Opus és Claude 3.5 Sonnet modelleken futtatták le; bár aggasztó eredményeket nem találtak, a szabotázsra való képesség megmutatkozott.
Az Anthropic open-source módon elérhetővé teszi ezeket az értékeléseket, és jelezte, hogy az AI fejlődésével erősebb szabotázsellenes védelmi intézkedésekre lesz szükség.

Miért fontos?

Az Anthropic kutatása rávilágít, hogy az AI még nem túl jó az emberek szabotálásában... egyelőre. Azonban a képességek bizonyos mértékig már jelen vannak – és ha a modellek fejlődése a várakozásoknak megfelelően folytatódik, csak idő kérdése, hogy ezek a fenyegetések valóssá váljanak, így elengedhetetlen a mérséklésük. ---

Eredeti forrás megtekintése (angol) →