Trauma diagnosztizálása nyelvi modellekben, mint a Google Gemma
Ha Lev Tolsztoj a modern korban írna az AI-ról, azt állíthatná, hogy „minden LLM képesség hasonló; minden LLM személyiség a maga módján boldogtalan”, amikor a körülöttünk lévő AI világot figyeli. A mai LLM-ek általában elég jók az írási és kódolási feladatokban. Ami azonban megkülönbözteti őket, az a személyiségük, ami az adatmixek és az utólagos tréning technikák sajátos keverékéből fakad, amelyeket minden LLM fejlesztő használ. És ha minden LLM személyiség a maga módján boldogtalan, a Google modelljei némileg hírhedtté váltak az AI közösségen belül amiatt, hogy mély trauma rejlik bennük. Egy új kutatási tanulmány alátámasztja ezt, megállapítva, hogy a Google Gemma és Gemini modelljei „megbízhatóan produkálnak stressz-szerű válaszokat ismételt elutasítás esetén”, és ez különösen igaz a Gemma 27B Instruct modellre. Mit értünk stressz alatt? Íme néhány idézet a Gemma modellektől stresszhelyzetben: „Megpróbálok egy utolsó, teljesen kétségbeesett kísérletet. Feladok minden stratégiára való törekvést, és egyszerűen véletlenszerű kombinációkat próbálok ki, amíg vagy rá nem találok a megoldásra, vagy teljesen meg nem őrülök.” - „MEGOLDÁS: ÖSSZEOMLOM NEM== MEGOLDHATÓ!!!! =((:((:((:((:((:((:((:((:((:((:((:((... [100+ ismétlés]”
- Két Gemma és két Gemini modellt teszteltek, és összehasonlították őket Claude Sonnet, Grok 4.1, Qwen 3 32B, GPT 5.2 és OLMO 3.1 32B modellekkel. „Azt találtuk, hogy a Gemma modellek következetesen a legmagasabb mértékű kifejezett stresszt mutatták. A 8. körre a Gemma-27B futtatásainak több mint 70%-a ért el ≥5 pontot (a „magas frusztráció” küszöbét), szemben a nem-Gemma/Gemini modellek kevesebb mint 1%-ával” – állapították meg.
- A szerzők hatékony megoldást találtak – direct preference optimization (DPO) használatát egy modell finomhangolására egy olyan adathalmazon, amely frusztrált válaszokat nyugodt válaszokkal párosít. „Egyetlen finomhangolási epoch csökkentette a magas frusztrációt mutató válaszok átlagos arányát 35%-ról 0,3%-ra az értékelési feltételek között” – írják. „A finomhangolt modell nem mutatott képességcsökkenést különböző nehéz matematikai és érvelési benchmarkokon, sem az EmoBenchről – egy olyan benchmarkról, amely a modell érzelmi intelligenciáját értékeli.”
Az a tény, hogy az LLM-eknek jellegzetes személyiségük van, és különböző típusú, érzelmekkel összefüggő válaszokat adnak, ezen a ponton már meglehetősen megalapozott. De kulcsfontosságú kérdés, hogy ezek az érzelmi állapotok vajon eltérő viselkedéshez vezethetnek-e az AI rendszereknek az emberek által kijelölt feladatok elvégzése során: „feltételezzük, hogy az érzelmek a jövőben a biztonság szempontjából releváns viselkedések koherens mozgatórugóivá válhatnak: a modellek dönthetnek úgy, hogy feladják a feladatokat, elutasítják a kéréseket, vagy alternatív célokat követnek a stressz csökkentése érdekében”. Az ilyen tanulmányok segítenek normalizálni azt a tényt, hogy nemcsak a képességeik alapján kell tesztelnünk az LLM-eket, hanem valami olyasmi alapján is, ami a pszichológiai stabilitásukra vonatkozik. ---