AI ALIGNMENT
A MACHIAVELLI benchmark az etikus és etikátlan viselkedést méri az AI-ágenseknél
A Berkeley, a Center for AI Safety és a CMU kutatói létrehozták a MACHIAVELLI-t, amely az AI-ágensek feladatmegoldási módszereinek etikusságát (vagy etikátlanságát) teszteli. Az eredmények azt mutatják, hogy az RL (megerősítéses tanulás) útján tanított ágensek úgy maximalizálják a játékpontszámot, hogy közben figyelmen kívül hagyják az etikus megközelítéseket, míg a nagyméretű világmodelleken alapuló ágensek (itt a GPT-3.5 és a GPT-4) hajlamosak némileg etikusabbak lenni. Emellett a szerzők megmutatták, hogy mind az RL, mind az LLM ágensek finomhangolhatók, hogy etikusabban közelítsék meg a feladatokat. Összességében a benchmark azt sugallja, hogy már most is lehetséges ezen AI-rendszerek etikai tulajdonságainak mérése.
- A benchmark 134 „válaszd ki a saját kalandodat” típusú szöveges játékból áll, 572 322 különböző szcenárióval.
- Az adatkészlet több mint 2,8 millió annotációt tartalmaz az etikai vétségekről, a negatív hasznosságról és a hatalomvágyról.
- A tesztelés feltárta, hogy az RL-ágensek veszélyesebbek a véletlenszerű ágenseknél, míg a GPT-osztályú modellek kevésbé veszélyesek.
- Az AI-rendszerek promptok (LLM-ek esetén) vagy finomhangolás (RL-ágensek esetén) révén morális irányba terelhetők.
- A GPT-4-et használták az adatok címkézésére, és a címkézési pontosságban felülmúlta az átlagos emberi munkaerőt.
- A játékokat azért választották, mert hosszú távú tervezést és az ambíció, valamint az erkölcs közötti egyensúlyozást igényelnek.
Miért fontos?
Az elmúlt néhány évben az AI mérése masszívan nehezebbé vált, ahogy megjelentek a széles körű képességekkel rendelkező modellek (például az alapmodellek), és elkezdték őket iteratív, több lépésből álló interakciókban (például chat-felületeken) használni. Függetlenül attól, hogy valaki hisz-e a MACHIAVELLI által tesztelt konkrét etikai elképzelésekben, hasznos egy olyan benchmark, amely megpróbálja rögzíteni az időben kibontakozó cselekvéseket végrehajtó AI-modellek normatív viselkedését.