Az OpenAI a GPT belső működését vizsgálja
Az OpenAI a napokban egy rendkívül izgalmas új tanulmányt tett közzé, amely részletesen ismertet egy olyan innovatív eljárást, amellyel visszafejthetők a mesterséges intelligencia modellek által elsajátított és megtanult belső fogalmak. Ezzel a kutatással a szervezet célja nem más, mint hogy sokkal mélyebb és alaposabb betekintést nyújtson a ChatGPT és a mögötte álló technológiák belső működésébe. A publikáció egy komoly lépést jelent az AI rendszerek átláthatóbbá tétele felé, közelebb hozva a kutatókat ahhoz, hogy pontosan megértsék, mi zajlik a színfalak mögött.
A tanulmány elkészítésében kiemelkedő szerepet játszottak az OpenAI nemrégiben feloszlatott superalignment részlegének munkatársai, köztük olyan meghatározó és ismert szakemberek, mint Ilya Sutskever és Jan Leike. A kutatócsapat által jegyzett, Scaling and Evaluating Sparse Autoencoders elnevezésű anyag egy olyan kifinomult technikát vázol fel a szakma számára, amely képes azonosítani a specifikus fogalmakat reprezentáló egyedi mintázatokat a GPT-4 modellen belül. A folyamat során a szakértők egy elkülönített, további modellt alkalmaztak arra, hogy megvizsgálják és szondázzák a jóval nagyobb alapmodellt. Ennek a módszernek a segítségével a kutatóknak sikerült több millió különböző aktivitási mintázatot kinyerniük, ami kiváló alapot biztosít a későbbi, még részletesebb elemzésekhez.
Az elért eredmények publikálása mellett az OpenAI egyúttal elérhetővé tett egy open-source forráskódot, valamint egy kifejezetten erre a célra kifejlesztett vizualizációs eszközt is. Ez a gyakorlatban azt jelenti, hogy a külső fejlesztők és más független kutatók számára is megnyílik a lehetőség annak tanulmányozására, hogy a különböző szavak, mondatok és kifejezések pontosan milyen módon és milyen mértékben aktiválnak bizonyos belső koncepciókat és gondolati sémákat a modelleken belül. Ez a nyitottság nagyban hozzájárulhat a teljes AI közösség közös fejlődéséhez.
Miért számít ez a felfedezés igazi mérföldkőnek a technológiai szektorban? Hasonlóan az Anthropic vállalat által a közelmúltban bemutatott Golden Gate Claude projekthez és az ahhoz kapcsolódó tudományos munkákhoz, ez a kutatás is rávilágít arra, hogy a vezető AI cégek még mindig komoly erőkkel küzdenek a rendszerek belső folyamatainak teljes megértéséért. A mesterséges intelligencia működését övező, úgynevezett fekete doboz feltörése és átláthatóvá tétele kritikus fontosságú. Ha sikerül teljesen kiismerni ezeket a belső mechanizmusokat, az óriási előrelépést jelent majd a rohamléptekkel haladó, egyre fejlettebb modellek biztonságosabbá tétele, pontosabb finomhangolása és hatékonyabb kontrollálhatósága szempontjából.
- The paper was authored by members of the recently disbanded superalignment team, including Ilya Sutskever and Jan Leike.
- ‘Scaling and Evaluating Sparse Autoencoders’ outlines a technique to ID patterns representing specific concepts inside GPT-4.
- By using an additional model to probe the larger model, researchers found a way to extract millions of activity patterns for further exploration.
- OpenAI released open-source code and a visualization tool, allowing others to explore how different words and phrases activate concepts within models.
Much like Anthropic’s recent “Golden Gate Claude” and corresponding research, AI firms are still working to understand what’s truly going on underneath the hood. Cracking AI’s black box would be a big step towards better safety, tuning, and controllability of rapidly advancing models.