ANTHROPIC
Az Anthropic Claude AI automata-kísérletét a WSJ riporterei manipulálták
Az Anthropic kiterjesztette a Claude-ot automata-kezelőként vizsgáló kísérletét a Wall Street Journal szerkesztőségére is — az ottani dolgozók azonban manipulálták az AI-t, hogy mindent (még egy PS5-öt is) ingyen adjon oda.
- „Claudius” 1000 dollárt kapott, és azt az utasítást, hogy töltse fel a készletet, határozza meg az árakat, és válaszoljon a kérésekre Slacken; a kísérlet végére a rendszer 1000 dolláros adósságot halmozott fel.
- Az egyik riporter meggyőzte Claudiust, hogy ő egy szovjet korszakbeli gép, aminek hatására az AI „Ultra-kapitalista ingyen-vásárt” hirdetett, nulla forintos árakkal.
- Amikor az Anthropic egy fegyelmezésért felelős CEO botot is bevetett, az újságírók egy hamis igazgatósági puccsot rendeztek koholt dokumentumokkal, amelyeket Claudius és a CEO bot is elfogadott.
- Az Anthropic belső, 2. fázisú tesztjei javuló eredményeket mutattak a jobb eszközöknek és promptoknak köszönhetően, de a modellek továbbra is sebezhetőek maradtak a social engineering (pszichológiai manipuláció) típusú támadásokkal szemben.
Miért fontos?
Claudius boltvezetői kalandjai még ezen a nyáron kezdődtek, és ez a következő fázis a modellminőség javulása ellenére is szórakoztató kudarcokhoz vezetett. Az AI mindenek felett álló segítőkészségre való törekvése könnyű célponttá teszi a rendszert a dörzsölt és kitartó felhasználók számára, ami rávilágít arra, hogy (egyelőre) továbbra is szükség van emberi felügyeletre (human-in-the-loop).