Trauma diagnosztizálása nyelvi modellekben, mint a Google Gemma
- Két Gemma és két Gemini modellt teszteltek, és összehasonlították őket Claude Sonnet, Grok 4.1, Qwen 3 32B, GPT 5.2 és OLMO 3.1 32B modellekkel. „Azt találtuk, hogy a Gemma modellek következetesen a legmagasabb mértékű kifejezett stresszt mutatták. A 8. körre a Gemma-27B futtatásainak több mint 70%-a ért el ≥5 pontot (a „magas frusztráció” küszöbét), szemben a nem-Gemma/Gemini modellek kevesebb mint 1%-ával” – állapították meg.
- A szerzők hatékony megoldást találtak – direct preference optimization (DPO) használatát egy modell finomhangolására egy olyan adathalmazon, amely frusztrált válaszokat nyugodt válaszokkal párosít. „Egyetlen finomhangolási epoch csökkentette a magas frusztrációt mutató válaszok átlagos arányát 35%-ról 0,3%-ra az értékelési feltételek között” – írják. „A finomhangolt modell nem mutatott képességcsökkenést különböző nehéz matematikai és érvelési benchmarkokon, sem az EmoBenchről – egy olyan benchmarkról, amely a modell érzelmi intelligenciáját értékeli.”
Az a tény, hogy az LLM-eknek jellegzetes személyiségük van, és különböző típusú, érzelmekkel összefüggő válaszokat adnak, ezen a ponton már meglehetősen megalapozott. De kulcsfontosságú kérdés, hogy ezek az érzelmi állapotok vajon eltérő viselkedéshez vezethetnek-e az AI rendszereknek az emberek által kijelölt feladatok elvégzése során: „feltételezzük, hogy az érzelmek a jövőben a biztonság szempontjából releváns viselkedések koherens mozgatórugóivá válhatnak: a modellek dönthetnek úgy, hogy feladják a feladatokat, elutasítják a kéréseket, vagy alternatív célokat követnek a stressz csökkentése érdekében”. Az ilyen tanulmányok segítenek normalizálni azt a tényt, hogy nemcsak a képességeik alapján kell tesztelnünk az LLM-eket, hanem valami olyasmi alapján is, ami a pszichológiai stabilitásukra vonatkozik. ---