Az LLM-ek hivatalosan is átmentek a Turing-teszten a UC San Diego friss tanulmánya szerint
Hivatalosan is új mérföldkőhöz érkezett a mesterséges intelligencia kutatása, miután a UC San Diego kutatóinak friss tanulmánya szerint a legújabb nagy nyelvi modellek, azaz az LLM-ek sikeresen átmentek a Turing-teszten. A kontrollált kísérletek során az OpenAI modellje, a GPT-4.5 egészen kiemelkedő eredményt produkált, és az esetek közel háromnegyedében képes volt megtéveszteni az emberi bírálókat, akik valóságos személynek hitték a szoftvert. Ez az áttörés egyértelműen jelzi, hogy a gépi kommunikáció szintje mára elérte a mindennapi emberi interakciók természetességét.
Az Alan Turing által még 1950-ben javasolt intelligencia-teszt lényege, hogy a gépeknek szöveges beszélgetéseken keresztül kell meggyőzniük az emberi bírákat arról, hogy ők is emberek. A kutatók egy háromszereplős elrendezést használtak a vizsgálat során, ahol a bíráknak ötperces beszélgetések alatt kellett egyszerre összehasonlítaniuk egy AI rendszert és egy embert. Érdekesség, hogy a bírálók a lexikális tudással szemben sokkal inkább a kötetlen beszélgetésre és az érzelmi jelzésekre támaszkodtak. Az interakciók több mint 60 százaléka kifejezetten a napi tevékenységekre és a személyes részletekre összpontosított, ami még inkább próbára tette a modellek képességeit.
A kísérletben részt vevő rendszerek közül az OpenAI fejlesztése, a GPT-4.5 szerepelt a legjobban: lenyűgöző, 73 százalékos győzelmi arányt ért el az emberi bírák megtévesztésében, amikor arra kérték, hogy egy konkrét személyiséget vegyen fel. Ezzel a teljesítménnyel a modell jelentősen felülmúlta a valódi embereket. Nem ez volt azonban az egyetlen sikeres AI, hiszen a Meta LLaMa-3.1-405B modellje szintén átment a teszten a maga 56 százalékos sikerarányával. Ezzel szemben az olyan alapmodellek, mint a GPT-4o, jóval elmaradtak ettől a szinttől, és mindössze 20 százalék körüli eredményt tudtak elérni a kutatás során.
A Turing-teszt évtizedeken keresztül az AI kutatás szent grálja volt, de a modellek fejlődésének felgyorsulása olyan gyorsan kitolta a határokat, hogy ezek az eredmények ma már egyáltalán nem tűnnek meglepőnek. Mindez komoly feladatok elé állítja a digitális világot, hiszen a következő szintű szöveg-, hang-, kép- és videóképességekkel felvértezett AI ágensek megjelenésével az AI és az ember megkülönböztetése rendkívül komoly kihívássá válik a mindennapokban.
- Az 1950-ben javasolt Turing-teszt lényege, hogy a gépeknek szöveges beszélgetéseken keresztül meg kell győzniük az emberi bírákat arról, hogy ők is emberek.
- A tanulmány egy háromszereplős elrendezést használt, ahol a bíráknak ötperces beszélgetések során egyszerre kellett összehasonlítaniuk egy AI-t és egy embert.
- A bírák inkább a kötetlen beszélgetésre és az érzelmi jelzésekre támaszkodtak a tudással szemben; az interakciók több mint 60%-a a napi tevékenységekre és személyes részletekre összpontosított.
- A GPT-4.5 73%-os győzelmi arányt ért el az emberi bírák megtévesztésében, amikor egy konkrét személyiség felvételére kérték, amivel jelentősen felülmúlta a valódi embereket.
- A Meta LLaMa-3.1-405B modellje szintén átment a teszten 56%-os sikeraránnyal, míg az olyan alapmodellek, mint a GPT-4o, csak 20% körüli eredményt értek el.
A Turing-teszt évtizedekig az AI kutatás szent grálja volt – de a modellek fejlődésének felgyorsulása olyan gyorsan kitolta a határokat, hogy az eredmények már egyáltalán nem tűnnek meglepőnek. A következő szintű szöveg-, hang-, kép- és videóképességekkel felvértezett AI ágensek megjelenésével az AI és az ember megkülönböztetése komoly kihívássá válik.