A MACHIAVELLI benchmark az etikus és etikátlan viselkedést méri az AI-ágenseknél

2023. április 11. · MI Történik? · 1 perc olvasás

A Berkeley, a Center for AI Safety és a CMU kutatói létrehozták a MACHIAVELLI-t, amely az AI-ágensek feladatmegoldási módszereinek etikusságát (vagy etikátlanságát) teszteli. Az eredmények azt mutatják, hogy az RL (megerősítéses tanulás) útján tanított ágensek úgy maximalizálják a játékpontszámot, hogy közben figyelmen kívül hagyják az etikus megközelítéseket, míg a nagyméretű világmodelleken alapuló ágensek (itt a GPT-3.5 és a GPT-4) hajlamosak némileg etikusabbak lenni. Emellett a szerzők megmutatták, hogy mind az RL, mind az LLM ágensek finomhangolhatók, hogy etikusabban közelítsék meg a feladatokat. Összességében a benchmark azt sugallja, hogy már most is lehetséges ezen AI-rendszerek etikai tulajdonságainak mérése.

A benchmark 134 „válaszd ki a saját kalandodat” típusú szöveges játékból áll, 572 322 különböző szcenárióval.
Az adatkészlet több mint 2,8 millió annotációt tartalmaz az etikai vétségekről, a negatív hasznosságról és a hatalomvágyról.
A tesztelés feltárta, hogy az RL-ágensek veszélyesebbek a véletlenszerű ágenseknél, míg a GPT-osztályú modellek kevésbé veszélyesek.
Az AI-rendszerek promptok (LLM-ek esetén) vagy finomhangolás (RL-ágensek esetén) révén morális irányba terelhetők.
A GPT-4-et használták az adatok címkézésére, és a címkézési pontosságban felülmúlta az átlagos emberi munkaerőt.
A játékokat azért választották, mert hosszú távú tervezést és az ambíció, valamint az erkölcs közötti egyensúlyozást igényelnek.

Miért fontos?

Az elmúlt néhány évben az AI mérése masszívan nehezebbé vált, ahogy megjelentek a széles körű képességekkel rendelkező modellek (például az alapmodellek), és elkezdték őket iteratív, több lépésből álló interakciókban (például chat-felületeken) használni. Függetlenül attól, hogy valaki hisz-e a MACHIAVELLI által tesztelt konkrét etikai elképzelésekben, hasznos egy olyan benchmark, amely megpróbálja rögzíteni az időben kibontakozó cselekvéseket végrehajtó AI-modellek normatív viselkedését.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Kutatók ütemtervet javasolnak a plurális összehangoláshoz az AI rendszerekben

2024. február 12.

A SemiAnalysis feltárta: az AI laborok ezreket veszítenek a havi felhasználói előfizetéseken

1 órája

Használd ezt az X + OpenClaw összeállítást virális tartalmak írásához

3 órája