Az Apple kutatói szerint a nagy nyelvi modellek híján vannak a valódi érvelési képességeknek
Az Apple AI csapata egy igazságbombát dobott a nagy nyelvi modellek világára. Egy új tanulmányban kimutatták, hogy a népszerű AI chatbotok, mint a ChatGPT, nem azok a matekzsenik, aminek gondoltuk őket. Épp ellenkezőleg – küzdenek az alapvető érveléssel, amit a legtöbb ember magától értetődőnek vesz. A kutatók kifejlesztettek egy új benchmarkot GSM-Symbolic néven, hogy próbára tegyék ezeket a modelleket.
Amikor kiwi-k megszámlálására kérték őket, sok vezető modell elbukott (beleértve a GPT-t és a Claude-ot is), levonva öt „kisebb” kivit, amikor azok méretének egyáltalán nem kellett volna számítania. Ez egy lényegtelen részlet volt, amit ki kellett volna szűrni. Ezért a tanulmány arra a következtetésre jutott, hogy a jelenlegi nyelvi modellek nem valódi érvelést folytatnak. Ehelyett „kifinomult mintázatfelismerést” végeznek, amely tüzetesebb vizsgálat során összeomlik. Hát persze, ezért hívják őket „prediktív modelleknek”, Apple!
A maga részéről Ilya, az OpenAI korábbi munkatársa azt mondja, hogy a következő szó megjóslása elvezet a megértéshez. Vajon több jóslat több megértéshez, például érveléshez vezethet? Mindenesetre ez áll az o1 elképzelése mögött.
- A kérdésekben szereplő számértékek megváltoztatása jelentős teljesítménycsökkenést okozott az összes tesztelt modellnél.
- Ahogy a kérdések összetettebbé váltak (több tagmondat hozzáadásával), a pontosság zuhant, a variancia pedig az egekbe szökött.
- Egyetlen irreleváns mondat hozzáadása egy matematikai feladathoz akár 65%-kal is visszavetette a pontosságot.
- Egy „kiwi-problémának” nevezett logikai tesztben a vezető modellek helytelenül vontak ki tételeket irreleváns méretleírások alapján.
- A kutatók arra a következtetésre jutottak, hogy az LLM-ek olyan mintázatfelismerésre támaszkodnak, amely a vizsgálatok során elbukik, nem pedig logikai érvelésre.
Miért fontos?
Véleményünk: Ha az Apple szerint az AI nem tud érvelni, miért készül mindent feltenni az AI-ra az eszközein? Aha! EZÉRT (utalva a piaci optimizmusra, miszerint az AI rekordméretű iPhone-eladásokat fog ösztönözni). ---