Főbb felismerések Andrej Karpathy mélyreható elemzéséből az AI működéséről

2025. február 7. · MI Történik? · 1 perc olvasás

Andrej Karpathy, az OpenAI alapító tagja és a Tesla AI korábbi vezetője, egy átfogó, háromórás videót tett közzé, amelyben lebontja a ChatGPT és más nagy nyelvi modellek belső működését. A magyarázat végigkíséri egy AI-modell teljes életciklusát, kezdve a szűrt internetes adatok feldolgozásától egészen a több lépésből álló „explicit érvelésig”. Karpathy hangsúlyozza, hogy bár ezek a modellek hatékony asszisztensként működnek, továbbra is tökéletlen eszközök maradnak, amelyek emberi felügyeletet és ellenőrzést igényelnek.

A pre-training folyamata során körülbelül 44 terabájtnyi kiváló minőségű internetes szöveget szűrnek meg a spam és a felnőtt tartalmak eltávolításával.
A tokenizáció a nyelvet nem karakterekre, hanem körülbelül 100 277 „kirakós darabra” (tokenre) bontja.
A neurális hálózatok egyszerre egy tokent jósolnak meg a korábbi kontextus és a véges számítási kapacitás alapján.
A tanítási költségek drasztikusan csökkentek: az optimalizálásnak köszönhetően egy GPT-2 modell tanítása ma már akár 100 dollárba is kerülhet.
Az alapmodellek (base models) „internetszimulátorként” működnek, amelyek mintákat ismernek fel, de még nem asszisztensek.
A felügyelt finomhangolás (supervised fine-tuning) beszélgetési adatokat használ, hogy megtanítsa a modelleknek, hogyan viselkedjenek asszisztensként.
A tudás megoszlik a paraméterek (hosszú távú memória) és a kontextusablak (közvetlen munkamemória) között.
A chain of thought prompting elengedhetetlen, mert a modelleknek több tokenre van szükségük a komplex logika feldolgozásához.
Az olyan érvelő modellek, mint a DeepSeek-R1 és az o3, megmutatják a gondolatmenetüket és több szempontból is ellenőrzik a válaszokat.
A jövő modelljei a valódi multimodalitás és az önálló feladatvégzésre képes autonóm ágensek felé haladnak.

Miért fontos?

Karpathy az AI-kutatás egyik legelismertebb alakja; képessége, hogy a komplex neurális hálózati fogalmakat emészthetővé tegye, segít a felhasználóknak megérteni, miért hallucinálnak a modellek, és hogyan lehet hatékonyabban promptolni őket. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Alakítsa a Claude-ot szerepkör-alapú specialistává Knowledge Work bővítményekkel

14 órája

Készítsen szeszélyes, rétegzett papírkivágásos diorámákat a ChatGPT 2.0 segítségével

14 órája

Állítson be napi automatizált könyvösszefoglaló feladatot a ChatGPT használatával

14 órája