AI KUTATÁS
A DeepSeek bemutatta az Engramot az AI következtetés és a tudásfelidézés szétválasztására
A DeepSeek közzétett egy új tanulmányt „Engram” címmel, amely egy módszert javasol a következtetés (reasoning) és a felidézés (recall) szétválasztására. Ahelyett, hogy a GPU-t minden lekérdezésnél a tények újbóli levezetésére kényszerítené, a rendszer a statikus tudást az olcsóbb rendszer-RAM-ba helyezi el. Ez a megközelítés a KV cache problémát a tudás tárolásával kezeli a nyers kontextus helyett. Az adatok High Bandwidth Memory (HBM) memóriáról a szabványos rendszer-RAM-ra való áthelyezésével a modell nagyobb pontosságot tarthat fenn hosszú kontextusok esetén, miközben jelentősen csökkenti a működési költségeket.
- 97%-os pontosságot értek el a hosszú kontextusú benchmarkokon, szemben a standard modellek 84%-os eredményével.
- Szétválasztja a következtetést a felidézéstől, megakadályozva, hogy a GPU-knak újra le kelljen vezetniük a statikus tényeket.
- A statikus tudást az olcsóbb rendszer-RAM-ba helyezi, hogy spóroljon a drága HBM költségeken.
- Kezeli a „KV cache” lassulást, ahol a generálási sebesség a kontextus növekedésével csökken.
Miért fontos?
Ha a DeepSeek megközelítése megállja a helyét éles környezetben is, az jelentős változást hozhat az AI-hardverek kihasználásában, pontosabbá és lényegesen olcsóbbá téve a hosszú kontextusú következtetést. ---