DATA POINTS
A Mercury 2 diffúziós érvelő modell áttörő következtetési sebességet ér el
Az Inception Labs elindította a Mercury 2-t, egy olyan nyelvi modellt, amely párhuzamos diffúzió-alapú generálást használ az autoregresszív dekódolás helyett, így a hagyományos LLM-eknél több mint ötször gyorsabb inferenciát ér el. A modell 1009 tokent generál másodpercenként NVIDIA Blackwell GPU-kon; ára 0,25 dollár millió bemeneti tokenenként és 0,75 dollár millió kimeneti tokenenként, 128 000 tokenes kontextusablakkal és natív eszközhasználattal. A Mercury 2 párhuzamos finomítást használ, hogy egyszerre több tokent állítson elő kevés lépésben, ahelyett, hogy balról jobbra, szekvenciálisan generálná őket.
Miért fontos?
A modell azokat az eseteket célozza meg, ahol a késleltetés (latency) összeadódik a többszörös inferencia-hívások során (beleértve az ágens-hurkokat, a valós idejű hangfelületeket, a kód-kiegészítést és a keresési folyamatokat). Itt a hívásonkénti késleltetés csökkentése növeli annak a lehetőségét, hogy hány érvelési lépés válik gazdaságilag kifizetődővé az időkereteken és válaszkorlátokon belül. ---