NYELVI MODELLEK
Az Apple bemutatta a LazyLLM-et a gyorsított modell-következtetéshez
Az Apple kutatói kifejlesztették a LazyLLM-et, egy innovatív módszert, amely dinamikusan ritkítja (pruning) a tokeneket a nyelvi modellek inference folyamatának felgyorsítása érdekében. Ez a megközelítés megőrzi a modell pontosságát, miközben jelentősen csökkenti a számítási terhelést a kezdeti feldolgozási fázisban.
- 2,34-szeres gyorsulást ér el a prefilling szakaszban.
- Dinamikus token-ritkítást (pruning) használ a teljesítmény optimalizálásához.
- Megőrzi a modell pontosságát, miközben növeli a feldolgozási sebességet.