AI OKTATÁS
Főbb felismerések Andrej Karpathy mélyreható elemzéséből az AI működéséről
Andrej Karpathy, az OpenAI alapító tagja és a Tesla AI korábbi vezetője, egy átfogó, háromórás videót tett közzé, amelyben lebontja a ChatGPT és más nagy nyelvi modellek belső működését. A magyarázat végigkíséri egy AI-modell teljes életciklusát, kezdve a szűrt internetes adatok feldolgozásától egészen a több lépésből álló „explicit érvelésig”. Karpathy hangsúlyozza, hogy bár ezek a modellek hatékony asszisztensként működnek, továbbra is tökéletlen eszközök maradnak, amelyek emberi felügyeletet és ellenőrzést igényelnek.
- A pre-training folyamata során körülbelül 44 terabájtnyi kiváló minőségű internetes szöveget szűrnek meg a spam és a felnőtt tartalmak eltávolításával.
- A tokenizáció a nyelvet nem karakterekre, hanem körülbelül 100 277 „kirakós darabra” (tokenre) bontja.
- A neurális hálózatok egyszerre egy tokent jósolnak meg a korábbi kontextus és a véges számítási kapacitás alapján.
- A tanítási költségek drasztikusan csökkentek: az optimalizálásnak köszönhetően egy GPT-2 modell tanítása ma már akár 100 dollárba is kerülhet.
- Az alapmodellek (base models) „internetszimulátorként” működnek, amelyek mintákat ismernek fel, de még nem asszisztensek.
- A felügyelt finomhangolás (supervised fine-tuning) beszélgetési adatokat használ, hogy megtanítsa a modelleknek, hogyan viselkedjenek asszisztensként.
- A tudás megoszlik a paraméterek (hosszú távú memória) és a kontextusablak (közvetlen munkamemória) között.
- A chain of thought prompting elengedhetetlen, mert a modelleknek több tokenre van szükségük a komplex logika feldolgozásához.
- Az olyan érvelő modellek, mint a DeepSeek-R1 és az o3, megmutatják a gondolatmenetüket és több szempontból is ellenőrzik a válaszokat.
- A jövő modelljei a valódi multimodalitás és az önálló feladatvégzésre képes autonóm ágensek felé haladnak.
Miért fontos?
Karpathy az AI-kutatás egyik legelismertebb alakja; képessége, hogy a komplex neurális hálózati fogalmakat emészthetővé tegye, segít a felhasználóknak megérteni, miért hallucinálnak a modellek, és hogyan lehet hatékonyabban promptolni őket. ---