Diffúziós modellek: Az AI, amely 10-szer gyorsabban ír, mint a ChatGPT

2025. december 9. · MI Történik? · 2 perc olvasás

Az AWS re:Invent 2025-ön készült interjúban Corey Stefano Ermonnal, az Inception Labs vezérigazgatójával és társalapítójával beszélget a Mercury-ról. Ez egy gyökeresen másfajta nyelvi modell, amely elhagyja a hagyományos autoregresszív megközelítést (egy-egy szó generálása egyszerre) egy diffúzió-alapú rendszer javára (szeretné tudni, mit jelent ez? Nézze meg a videót!). Minden nagy AI labor ugyanazt a típusú nyelvi modellt építi. Az OpenAI, az Anthropic, a Google: mindannyian autoregresszív transzformereket használnak, amelyek szavanként generálják a szöveget. Stefano Ermon szerint ez tévút. Cége pedig éppen most gyűjtött össze 50 millió dollárt az OpenAI és az Anthropic korai befektetőitől, a Microsofttól, az NVIDIA-tól és Andrej Karpathy-tól, hogy ezt bebizonyítsa.

A nyelvi diffúzió magyarázata: Ahelyett, hogy tokenenként generálnának szöveget, ezek a modellek véletlenszerű zajból indulnak ki, és azt iteratívan finomítják koherens szöveggé – mintha nagyüzemi Wordle-t játszanának.
Hogyan működik valójában: Technikai összefoglaló arról, hogyan generálnak a diffúziós nyelvi modellek teljes bekezdéseket a tippek finomításával, ahelyett, hogy a következő szót jósolnák meg.
A stanfordi áttörés: Hogyan érte el Stefano laborja a GPT-2 minőségét 10-szeres sebesség mellett – a koncepció igazolása, amely a cég megalapításához vezetett.
Mercury launch: Az első kereskedelmi szintű diffúziós nyelvi modell, amely 5-10-szer gyorsabb, mint a Gemini Flash, a Claude Haiku és a GPT-4o Mini, miközben hozza azok minőségét.
Másfajta skálázási törvények: Miért adat-hatékonyabbak a diffúziós modellek, és miért tanulnak többet ugyanannyi tanító adatból, mint a hagyományos transzformerek.
Az inference előnye: Miért az inference hatékonysága a valódi csatatér, és hogyan tudnak a diffúziós modellek számos tokent feldolgozni egyetlen neurális hálózati kiértékeléssel ahelyett, hogy csak egyet dolgoznának fel.
Pareto-dominancia: Költség-sebesség elemzés, amely megmutatja, hogy a diffúziós modellek azonos költség mellett gyorsabbak, vagy azonos sebesség mellett 5-10-szer olcsóbbak – mindkét dimenzióban legyőzve az autoregresszív modelleket.
RL a diffúzióhoz: Hogyan taníthatja a megerősítéses tanulás (RL) ezeket a modelleket nemcsak jobb válaszokra, hanem gyorsabb konvergenciára is – tovább növelve a sebességet.
Az 50 millió dolláros háttér: Miért fogad erre a megközelítésre az OpenAI és az Anthropic korai befektetői köre, valamint a Microsoft, az NVIDIA, a Databricks és a Snowflake.
Próbálja ki Ön is: Hogyan érhető el a Mercury az OpenAI-kompatibilis API-jukon keresztül, hogyan tesztelhető a chat felületükön, vagy hogyan telepíthető az AWS Bedrock-on.

Miért fontos?

Ha az Inception Labs-nek igaza van, akkor egy alapvető architektúra-váltás kezdetét látjuk az AI-ban: a szekvenciális token-jóslástól a párhuzamos, iteratív finomítás felé. Azokban az alkalmazásokban, ahol a sebesség számít (hangalapú ágensek, kódoló asszisztensek, valós idejű chat), a diffúziós modellek jelenthetik a megoldást, amit mindenki keresett. ---

Eredeti forrás megtekintése (angol) →