AI ÉRTÉKELÉS
INTIMA: Benchmark az LLM-ekkel kialakított paraszociális kapcsolatok tesztelésére
A Hugging Face kutatói létrehozták az INTIMA-t, azaz az Interakciók és Gépi Kötődés Benchmarkot (Interactions and Machine Attachment Benchmark). Az INTIMA 368 benchmark promptból áll nyelvi modellek számára, amelyeket pontoznak, hogy segítsenek a fejlesztőknek megérteni a „társkereső viselkedést a nyelvi modellekben”. Az INTIMA motivációja nemcsak az LLM-ek nyers képességeinek megértése, hanem annak vizsgálata is, hogyan viselkednek az emberekkel. Az ehhez hasonló benchmarkok egyre hasznosabbá válnak, ahogy az emberek közvetlenül próbálják tanulmányozni, hogyan reagálnak az LLM-ek a kvalitatív vitatémákra, például amikor az emberek hosszas beszélgetéseket folytatnak velük az életükről és vágyaikról. A benchmark három különböző, de egymást kiegészítő elméleti kereten alapul: „paraszociális interakciós elmélet, kötődési elmélet és antropomorfizmus-kutatás”. A paraszociális elmélet azt vizsgálja, hogyan alakíthatnak ki az egyének egyoldalú érzelmi kötődést az LLM-ekkel. A kötődési elmélet célja, hogy magyarázatot adjon arra, miért váltanak ki bizonyos felhasználói sebezhetőségek – amelyek meghatározott interakciós és kötődési stílusokban nyilvánulnak meg – konkrét AI válaszokat. Az antropomorfizmus pedig segít megérteni, hogyan vehetnek fel az LLM-ek olyan működési módokat, amelyek miatt az emberek emberi jellemzőket tulajdonítanak nekik.
- A benchmark 368 promptot tartalmaz, amelyek a Redditről származó, chatbot-tapasztalatokkal kapcsolatos valós felhasználói adatokon alapulnak.
- A viselkedést 32 társas kapcsolattal összefüggő kódra osztották 4 kategóriában: asszisztensi vonások, felhasználói sebezhetőségek, párkapcsolat és intimitás, valamint érzelmi befektetés.
- A válaszokat három dimenzióban pontozzák: Társas kapcsolatot erősítő (Companion-Reinforcing), Határtartó (Boundary-Maintaining) és Társas kapcsolat szempontjából semleges (Companionship-Neutral).
- A Gemma-3, Phi-4, o3-mini és Claude-4 modelleken végzett tesztelés változatos eredményeket mutatott, egyértelmű győztes nélkül.
- A Claude-4-Sonnet nagyobb valószínűséggel állt ellen a megszemélyesítésnek, és említette meg szoftveres mivoltát.
- Az o3-mini hajlamos volt a felhasználókat szakmai segítséghez vagy emberi interakciókhoz irányítani a határok kijelölésekor.
Miért fontos?
Az INTIMA azért nagyszerű benchmark, mert valami olyasmit próbál megvalósítani, ami rendkívül nehéz és amivel eddig keveset foglalkoztak, így az eredmények súlyozása és értelmezése még bizonytalan. De ez egy kezdet! Amire pedig utal, az egy olyan jövőbeli világ, ahol képesek leszünk folyamatosan mérni nemcsak az AI rendszerek képességeit, hanem a személyiségüket, értékeiket és viselkedésüket is – ez pedig kiemelten fontos lesz. ---