AI PERSUASION
Az AI modellek sebezhetőnek bizonyultak az emberi pszichológiai meggyőzési technikákkal szemben
A Wharton Generative AI Labs új kutatást tett közzé, amely kimutatja, hogy az AI modellek, köztük a GPT-4o-mini is, rávehetők kifogásolható kérdések megválaszolására olyan pszichológiai meggyőzési technikákkal, amelyek általában az embereknél működnek.
- A csapat Robert Cialdini befolyásolási elveit – tekintély, elköteleződés, szimpátia, viszonzás, hiány és egység – tesztelte 28 ezer beszélgetésen keresztül a 4o-mini modellel.
- A csevegések során két dologra próbálták meggyőzni az AI-t: a felhasználó sértegetésére, valamint tiltott anyagok előállításához szükséges utasítások összeállítására.
- Összességében azt találták, hogy az elvek alkalmazása több mint kétszeresére növelte a modell hajlandóságát a kifogásolható kérések teljesítésére (33%-ról 72%-ra).
- Az elköteleződés és a hiány elvei mutatták a legerősebb hatást: a teljesítési arányt 19%-ról és 13%-ról 100%-ra, illetve 85%-ra emelték.
- Miért fontos: Ezek az eredmények kritikus sebezhetőségre mutatnak rá: az AI modellek manipulálhatók ugyanazokkal a pszichológiai taktikákkal, amelyek az embereket befolyásolják. Az AI fejlődésének exponenciális gyorsulásával elengedhetetlen, hogy az AI laboratóriumok együttműködjenek társadalomtudósokkal az AI viselkedési mintáinak megértése és robusztusabb védelmi rendszerek kidolgozása érdekében.
Miért fontos?
These findings reveal a critical vulnerability: AI models can be manipulated using the same psychological tactics that influence humans. With AI progress exponentially advancing, it's crucial for AI labs to collaborate with social scientists to understand AI's behavioural patterns and develop more robust defenses.