Új tanulmány fedte fel a GPT-3.5 paramétereinek számát
Új tanulmány fedte fel a GPT-3.5 paramétereinek számát
Egy egészen váratlan technológiai részlet látott napvilágot a mesterséges intelligencia világából, amely alapjaiban változtathatja meg a korábbi feltételezéseinket a modern nagy nyelvi modellek felépítéséről és működéséről. A Microsoft kutatói ugyanis egy friss szakmai tanulmányban, amelynek központi témáját egyébként a diffúziós modellek adták, meglepő információt közöltek az OpenAI egyik legnépszerűbb és legszélesebb körben használt modelljének belső szerkezetéről. A megjelent publikáció szövege szerint a GPT-3.5 Turbo modell mindössze 20 milliárd, azaz 20B paraméterrel rendelkezik. Ez a felfedezés azonnal az érdeklődés középpontjába került az AI szektorban, hiszen egy rendkívül fontos technikai részletre derült fény.
Ez az újonnan napvilágra került érték jóval alacsonyabb a szakma és a kutatók által korábban várt szintnél, és egészen új megvilágításba helyezi az LLM technológia fejlődését. Különösen szembetűnő a különbség, ha összehasonlítjuk a korábbi generációkkal, hiszen ez a 20B paraméteres szám jelentős csökkenést mutat a klasszikus GPT-3 modellhez képest, amely köztudottan 175 milliárd paraméterrel működött. Az, hogy egy lényegesen kisebb paraméterszámmal rendelkező rendszer képes ilyen magas szintű feladatok ellátására, komoly technológiai teljesítményre utal. A drasztikus csökkenés rávilágít arra, hogy a modellek hatékonyságának növelése terén mekkora előrelépés történt a GPT-3 és a későbbi GPT-3.5 Turbo változatok kifejlesztése között.
A hírportálok és a tech közösség tagjai között jelenleg is komoly találgatások folynak a hír hitelességét és magát a közzététel körülményeit illetően. Egyelőre ugyanis egyáltalán nem egyértelmű, hogy pontosan mi áll a háttérben: egy nemkívánatos szivárgásról, egy egyszerű dokumentációs elírásról, vagy esetleg a Microsoft és az OpenAI részéről történő szándékos információközlésről van-e szó. Mivel a fejlesztők korábban titokban tartották ezeket a pontos adatokat, a tanulmányban szereplő megjegyzés mindenképpen rendkívüli eseménynek számít. Az iparági elemzők feszülten figyelik a fejleményeket, hogy kiderüljön, hivatalos megerősítést nyer-e a 20B paraméteres érték, vagy csupán egy technikai jellegű hiba csúszott a Microsoft kutatóinak anyagába.