Az OpenAI o1 okosabb a legtöbb embernél
Az OpenAI legújabb fejlesztése, az o1 modell a jelek szerint történelmi mérföldkőhöz érkezett a mesterséges intelligencia fejlődésében. A jelentések alapján a modell a norvég Mensa IQ-teszten 120 körüli eredményt ért el, ami azért különösen figyelemre méltó, mert ez az első alkalom, hogy egy AI-rendszer potenciálisan meghaladta az átlagos emberi intelligencia szintjét. A teszt során a modell a 35 kérdésből 25-re adott helyes választ, ami nemcsak a nyers számítási teljesítményét, hanem a komplex vizuális és logikai feladványok megoldásához szükséges következtetési képességét is bizonyítja.
A teszteredmények hitelességét erősíti, hogy az o1 nem csupán a már ismert, tréningadatokban szereplő feladatokat oldotta meg kiemelkedően, hanem sikeresen teljesített olyan új, korábban nem publikált kérdéssorokon is. Ez a fajta absztrakt logikai képesség döntő különbséget jelent a korábbi LLM modellekhez képest, amelyek gyakran a mintafelismerésre és a statisztikai valószínűségekre támaszkodtak a válaszadáshoz. Bár az OpenAI egyelőre hivatalosan nem erősítette meg a pontos eredményeket, a technológiai közösség számára a ChatGPT Plus előfizetőkön keresztül elérhető o1-preview verzió lehetőséget biztosít a saját tapasztalatszerzésre és az önálló tesztelésre.
Ez az áttörés azért bír kiemelkedő jelentőséggel, mert úgy tűnik, az OpenAI ezzel elérte a saját, AGI-ra vonatkozó ötszintes ütemtervének második szintjét. Ez a szint már nem csupán gyors válaszadást, hanem valódi gondolkodást és következtetést igényel a problémák megoldása során. A modell képes megállni, mérlegelni a lehetőségeket, és több lépésben építeni fel a helyes megoldást, ami kritikus előfeltétele annak, hogy a jövőben megjelenjenek az autonóm AI-ágensek. Ha a technológia ezen az úton halad tovább, az alapjaiban változtathatja meg az ember-gép együttműködést, hiszen egy olyan intelligens partner körvonalazódik, amely már nemcsak adatokat dolgoz fel, hanem a bonyolult logikai láncolatokat is képes átlátni és megoldani.
- Az o1 a 35-ből 25 kérdésre válaszolt helyesen a norvég Mensa IQ-teszten.
- Jártasságot mutatott az összetett vizuális és logikai rejtvények megoldásában, mind a nyilvánosan elérhető teszteken, mind az új, még nem publikált kérdéseken.
- Ez a teljesítmény arra utal, hogy a javulás nem annak köszönhető, hogy a kérdések szerepeltek a tréningadatok között.
- Bár az OpenAI hivatalosan még nem erősítette meg ezeket az eredményeket, a ChatGPT Plus tagok maguk is tesztelhetik az o1-preview-t a ChatGPT-n belüli modellválasztó legördülő menü segítségével.
Ha megerősítést nyer, ezek az eredmények azt jeleznék, hogy az OpenAI elérte a 2. szintű (Stage 2) teljesítményt az AGI felé vezető 5 szintes ütemtervén. Ez a mérföldkő arra utal, hogy a modell képes megállni, gondolkodni és következtetni a problémákról, hogy gyakrabban jusson helyes válaszra — ami kulcsfontosságú előfeltétele a 3. szintnek (AI-ágensek). ---