MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Inception Labs diffúziós szöveges modellt fejleszt a gyorsabb Transformer alternatívájaként

Stefano Ermon, az Inception Labs munkatársa egy új AI architektúrát fejleszt, amely diffúziós modelleket használ szöveggeneráláshoz, így kínálva a domináns Transformer modellnél potenciálisan hatékonyabb alternatívát. Míg a hagyományos LLM-ek, mint a ChatGPT, autoregresszív módon, tokenenként generálnak szöveget, a diffúzióalapú szöveges modellek véletlenszerű zajból indulnak ki, és azt finomítják koherens válasszá. Ez a módszer a Stable Diffusion és más képgeneráló modellek technikáját tükrözi. A szavak egymás utáni generálásától való elmozdulással ez az architektúra a Transformer kialakításából adódó hatékonysági szűk keresztmetszetek és sebességkorlátok leküzdését célozza meg.
Miért fontos?

Ahogy az iparág alternatívákat keres a hagyományos Transformerekre, a szöveges diffúziós modellek lehetőséget kínálnak a jelentősen gyorsabb és hatékonyabb AI rendszerek megalkotására. ---

Eredeti forrás megtekintése (angol) →