Az Exo Labs Hibrid LLM Cluster-t Épít DGX Spark és Mac Studio Alapján
- A motiváció: „A DGX Spark 4-szeres számítási teljesítménnyel rendelkezik, a Mac Studio pedig 3-szoros memória bandwidth-szel” – jegyzi meg az Exo.
- „Mi lenne, ha kombinálnánk őket? Mi lenne, ha a DGX Sparkot arra használnánk, amire a legjobb, és a Mac Studiót arra, amire az a legjobb, ugyanabban az inference kérésben?”
- Az Exo írt egy szoftvert, amely a prefill fázist a DGX Sparkon, a decode fázist pedig az M3 Ultra-n végzi, kihasználva mindegyik gép relatív erősségeit.
- Arra is rájöttek, hogyan lehet streamelni a KV cache-t: „Amint az 1. réteg prefill-je befejeződik, két dolog történik egyszerre. Az 1. réteg KV-ja megkezdi az átvitelt az M3 Ultra-ra, és a 2. réteg prefill-je megkezdődik a DGX Sparkon. Az egyes rétegek kommunikációja átfedésben van a következő rétegek számításával.”
- Az eredmény: A szerzők egy Llama-3.1 8B (FP16) modellel tesztelték megközelítésüket, 8192 token prompt-tal és 32 token generálásával.
- Az így létrejött rendszernek 1,47 másodpercre van szüksége a prefill-hez és 0,85 másodpercre a kimenet generálásához, ami 2,8-szoros gyorsulást jelent egy tiszta Mac Studio alaphoz képest (és 1,9-szeres gyorsulást csupán a DGX Spark használatához képest).
Az olyan startup-ok, mint az Exo, az AI politikai gazdaságtanára összpontosítanak, amelyet jelenleg nagymértékben az AI modellek számítási igényei határoznak meg. Ezek a számítási igények azt jelentik, hogy kevés szolgáltató hostingol egy apró halmazt rendkívül nagy, erős AI rendszerekből, és jelentős kontrollt gyakorolhat felettük. Vannak elérhető open weight modellek, amelyek az embereknek egyfajta AI szuverenitást biztosítanak, de ezek futtatása nem triviális, mert. Az itt leírt Exo projekthez hasonló prototípusok segítenek eljutni egy olyan világba, ahol az emberek különböző típusú hardverekből építhetnek házilag barkácsolt cluster-eket, és ezzel visszaszerezhetnek némi kontrollt AI sorsuk felett.