Az Apple bemutatta a LazyLLM-et a gyorsított modell-következtetéshez

NYELVI MODELLEK

Az Apple bemutatta a LazyLLM-et a gyorsított modell-következtetéshez

2024. július 25. · MI Történik? · 1 perc olvasás

Az Apple kutatói kifejlesztették a LazyLLM-et, egy innovatív módszert, amely dinamikusan ritkítja (pruning) a tokeneket a nyelvi modellek inference folyamatának felgyorsítása érdekében. Ez a megközelítés megőrzi a modell pontosságát, miközben jelentősen csökkenti a számítási terhelést a kezdeti feldolgozási fázisban.

2,34-szeres gyorsulást ér el a prefilling szakaszban.
Dinamikus token-ritkítást (pruning) használ a teljesítmény optimalizálásához.
Megőrzi a modell pontosságát, miközben növeli a feldolgozási sebességet.

Eredeti forrás megtekintése (angol) →