Intelligencia Wattonként: Az AI hatékonyságának mérése
2025. november 17. · MI Történik? · 3 perc olvasás
Hogyan mérhető az AI fejlődése? Ebben a hírlevélben sok időt töltünk specifikus képességmetrikákról írással. De a képességek nem tükrözik az AI felhasználásának fontos dimenzióit, nevezetesen, hogy mennyibe kerül és mennyire könnyen hozzáférhető. Most a Stanford Egyetem és a Together AI új kutatása azt vizsgálja, hogy az AI mennyire fejlődik az idő múlásával, azáltal, hogy az emberek mennyire tudnak hozzáférni saját számítógépeiken open weight modellek segítségével. A konkrét mérőszám, amivel előálltak, az „Intelligencia Wattonként”, ami két fontos kérdésre keresi a választ: „Képes-e a helyi inference életképesen újraelosztani a keresletet a központosított infrastruktúráról? Ennek megválaszolásához meg kell mérni, hogy a helyi LLM-ek (LMs) pontosan tudnak-e válaszolni valós kérdésekre, és hogy elég hatékonyan tudják-e ezt megtenni ahhoz, hogy praktikusak legyenek energiakorlátozott eszközökön (azaz laptopokon).” A szerzők két dolgot tesztelnek: 1) mennyire hatékonyan helyettesíthet egy open weight modell egy szabadalmaztatottat, és 2) mi az ár wattonként, ha modelleket helyben futtatunk. Ennek mérésére a szerzők egy körülbelül 1 millió lekérdezésből álló adathalmazt építettek, amelyet aztán open weight és szabadalmaztatott modelleken futtattak le, beleértve az open weight Qwen3, GPT-OSS, Gemma 3 és IBM Granite 4.0 modelleket, valamint szabadalmaztatottakat, mint például a Claude Sonnet 4.5, Gemini 2.5 Pro és GPT-5. „A helyi LLM-ek (LMs) pontosan tudnak válaszolni az egylépéses chat- és érvelési lekérdezések 88,7%-ára, a pontosság tartományonként változik” – írják a szerzők. Ez jelentős előrelépés 2023-hoz képest, amikor a legjobb open weight modellek a lekérdezések körülbelül 23%-ánál tudtak felvenni a versenyt a szabadalmaztatottakkal, és 2024-hez képest, ahol ez 48,7% volt. „A kurált chat- és érvelési lekérdezés-adatkészletünkön a pontosság wattonként 5,3-szoros javulást mutatott ezen a kétéves időszakban” – írják a szerzők. Ez a fejlődés több dologból ered, beleértve „a modell architektúrákban elért összeadódó javulásokat, amelyek magasabb pontosságot érnek el a pretraining, post-training és a paraméter kihasználás területén a mixture-of-experts (MoE) architektúrák révén, valamint a hardvergyorsítókat, amelyek több számítási teljesítményt (FLOPs) és memóriát biztosítanak wattonként.” Az egyik legújabb kiemelkedő pont az Apple M4 MAX chipjének megjelenése, amely képes futtatni erős LLM-eket, mint például a GPT-OSS sorozatot, helyben. E fontos tendenciáktól függetlenül, a nagyméretű felhőalapú számítástechnikai infrastruktúrán futtatott szabadalmaztatott modellek előnyben vannak a képességplafont tekintve – különösen az érvelési képességeket igénylő feladatoknál –, valamint az alapul szolgáló szilícium hatékonyságában. Például, a Qwen open weight modelleket vizsgálva, a szerzők azt találták, hogy „a B200 1,40-szer magasabb intelligenciát ér el wattonként, mint az M4 MAX, minden modellméretben”. „Az egylépéses interakciókra összpontosítunk, mert ezek az LLM használat jelentős részét teszik ki” – írják a szerzők. Bár ez igaz lehet, azt jelenti, hogy az itt szereplő metrikák az LLM-ek „átlagos felhasználását” rögzítik, hasonlóan ahhoz, ahogy az emberek keresőmotorokat használnak alapvető dolgokra, mint például „milyen az időjárás ma” vagy „hogyan kell bicikligumit cserélni”, szemben a haladó felhasználókkal, akik sokkal bonyolultabb lekérdezésekkel rendelkeznek, és az LLM-ek esetében jelentős oda-vissza kommunikációt folytatnak magukkal a modellekkel.
Miért fontos?
Miért fontos ez – az eszközön futó AI mérések a digitális világ változó ökológiájáról mesélnek: Manapság sokat gondolkodom a környezeten. Nem a fizikai, hanem a digitális környezeten. Bár léteznek bizonyos szabadalmaztatott modell „csúcsragadozók”, mint a Claude és a GPT és a Gemini, számuk kevés, és szigorúan ellenőrzik őket a vállalatok, hasonlóan a lomha elefántokhoz vagy bálnákhoz – nagy érdeklődésre tartanak számot és kiváló képességekkel rendelkeznek, de bizonyos értelemben lassúak és ellentmondásosan olvashatók. De mi van a patkányokkal, muslincákkal, hangyákkal és csótányokkal? Mi van azokkal a gyorsan mozgó élőlényekkel, amelyek elképesztő sebességgel és erővel terjednek el a természetes és mesterséges környezetekben? Ez az, ami számomra érdekes az open weight modellekben. Sok szempontból az olyan mérőszámok, mint az IPW, a feladatlefedettségi mérőszámokkal kombinálva, valójában csak a körülöttünk lévő változó digitális világ mérését jelentik, és egy olyan lencsét, amely lehetővé teszi számunkra, hogy lássuk azokat az új életformákat, amelyek ökológiai fülkéket találnak, laknak be és terjesztenek ki digitális tartományunkban.
---