Diffúziós modellek: Az AI, amely 10-szer gyorsabban ír, mint a ChatGPT
Az AWS re:Invent 2025-ön készült interjúban Corey Stefano Ermonnal, az Inception Labs vezérigazgatójával és társalapítójával beszélget a Mercury-ról. Ez egy gyökeresen másfajta nyelvi modell, amely elhagyja a hagyományos autoregresszív megközelítést (egy-egy szó generálása egyszerre) egy diffúzió-alapú rendszer javára (szeretné tudni, mit jelent ez? Nézze meg a videót!). Minden nagy AI labor ugyanazt a típusú nyelvi modellt építi. Az OpenAI, az Anthropic, a Google: mindannyian autoregresszív transzformereket használnak, amelyek szavanként generálják a szöveget. Stefano Ermon szerint ez tévút. Cége pedig éppen most gyűjtött össze 50 millió dollárt az OpenAI és az Anthropic korai befektetőitől, a Microsofttól, az NVIDIA-tól és Andrej Karpathy-tól, hogy ezt bebizonyítsa.
- A nyelvi diffúzió magyarázata: Ahelyett, hogy tokenenként generálnának szöveget, ezek a modellek véletlenszerű zajból indulnak ki, és azt iteratívan finomítják koherens szöveggé – mintha nagyüzemi Wordle-t játszanának.
- Hogyan működik valójában: Technikai összefoglaló arról, hogyan generálnak a diffúziós nyelvi modellek teljes bekezdéseket a tippek finomításával, ahelyett, hogy a következő szót jósolnák meg.
- A stanfordi áttörés: Hogyan érte el Stefano laborja a GPT-2 minőségét 10-szeres sebesség mellett – a koncepció igazolása, amely a cég megalapításához vezetett.
- Mercury launch: Az első kereskedelmi szintű diffúziós nyelvi modell, amely 5-10-szer gyorsabb, mint a Gemini Flash, a Claude Haiku és a GPT-4o Mini, miközben hozza azok minőségét.
- Másfajta skálázási törvények: Miért adat-hatékonyabbak a diffúziós modellek, és miért tanulnak többet ugyanannyi tanító adatból, mint a hagyományos transzformerek.
- Az inference előnye: Miért az inference hatékonysága a valódi csatatér, és hogyan tudnak a diffúziós modellek számos tokent feldolgozni egyetlen neurális hálózati kiértékeléssel ahelyett, hogy csak egyet dolgoznának fel.
- Pareto-dominancia: Költség-sebesség elemzés, amely megmutatja, hogy a diffúziós modellek azonos költség mellett gyorsabbak, vagy azonos sebesség mellett 5-10-szer olcsóbbak – mindkét dimenzióban legyőzve az autoregresszív modelleket.
- RL a diffúzióhoz: Hogyan taníthatja a megerősítéses tanulás (RL) ezeket a modelleket nemcsak jobb válaszokra, hanem gyorsabb konvergenciára is – tovább növelve a sebességet.
- Az 50 millió dolláros háttér: Miért fogad erre a megközelítésre az OpenAI és az Anthropic korai befektetői köre, valamint a Microsoft, az NVIDIA, a Databricks és a Snowflake.
- Próbálja ki Ön is: Hogyan érhető el a Mercury az OpenAI-kompatibilis API-jukon keresztül, hogyan tesztelhető a chat felületükön, vagy hogyan telepíthető az AWS Bedrock-on.
Miért fontos?
Ha az Inception Labs-nek igaza van, akkor egy alapvető architektúra-váltás kezdetét látjuk az AI-ban: a szekvenciális token-jóslástól a párhuzamos, iteratív finomítás felé. Azokban az alkalmazásokban, ahol a sebesség számít (hangalapú ágensek, kódoló asszisztensek, valós idejű chat), a diffúziós modellek jelenthetik a megoldást, amit mindenki keresett. ---