NYÍLT MODELLEK
Az OpenAI közzétette a gpt-oss-20b és 120b nyílt súlyozású következtetési modelljeit
Az OpenAI két nyílt súlyozású (open-weights) modellt adott ki: a gpt-oss-20b-t és a gpt-oss-120b-t. Ezek mixture-of-experts architektúrával rendelkező következtetési (reasoning) modellek, ami azt jelenti, hogy használat közben a paramétereiknek csak egy töredéke aktív. Ezek a modellek valamivel gyengébbek az o3-mini és o4-mini változatoknál; bár az érvelésben okosak, önmagukban nem rendelkeznek széleskörű tudással, azaz kifejezetten tool call hívásokhoz és ágens-alapú (agentic) munkafolyamatokhoz készültek.
Letölthetők a HuggingFace-ről és más szolgáltatóktól, de a legegyszerűbb módja a kipróbálásuknak a gpt-oss.com weboldal. Bár ezek a modellek előrelépést jelentenek a nyílt ökoszisztéma számára, a helyi futtatás egy egyéves M3 Air-en Ollama segítségével körülbelül 10 szót produkál percenként, szemben az o3 nagyjából 800 szó/perces sebességével. Ez korlátokat jelez a helyi futtatásra szánt (local-first) alkalmazások számára a standard fogyasztói hardvereken, ugyanakkor továbbra is kiváló jelöltek maradnak a speciális vállalati fine-tuningra.
- A mixture-of-experts (MoE) architektúra optimalizálja a paraméterhasználatot
- Kifejezetten tool call hívásokhoz és ágens-alapú munkafolyamatokhoz tervezték az általános tudás helyett
- Elérhető a HuggingFace-en és olyan helyi szolgáltatókon keresztül, mint az Ollama
- Csak szöveges képesség, kifejezetten a következtetési feladatokra összpontosítva
- Támogatja a specifikus feladatokra történő fine-tuningot a réspiaci vállalati felhasználás javítása érdekében
Miért fontos?
Az OpenAI nyílt súlyozású modelljeinek megjelenése lehetővé teszi a fejlesztők és vállalatok számára, hogy saját adataikon végezzenek fine-tuningot nagy tudású következtetési modelleken anélkül, hogy azokat külsőleg megosztanák, így utat nyitva a biztonságos, specializált ágens-alkalmazások felé. ---