A Tencent részleteket közölt az ARGUS 10 000 GPU-s képzési eszközről
A Tencent bemutatta az ARGUS névre keresztelt forradalmi szoftverrendszerét, amelyet kifejezetten a nagyméretű mesterségesintelligencia-képzési klaszterek valós idejű telemetriájára, nyomon követésére és hibakeresésére fejlesztettek ki. Ahogy az LLM modellek és egyéb bonyolult AI-architektúrák mérete exponenciálisan nő, a több tízezer GPU-t magában foglaló rendszerek kezelése komoly technológiai kihívást jelent. Az ARGUS célja éppen ez a komplexitás: a rendszer képes a képzési folyamatok során felmerülő kritikus problémák – például a számítási késleltetések, azaz a stragglers, a kommunikációs linkek degradációja, valamint a pipeline-buborékok – azonnali és pontos kezelésére, ezzel biztosítva a folyamatos és hatékony működést.
A technológiai megoldás három egymásra épülő szoftverrétegen keresztül fejti ki hatását, lefedve a Python környezetet, a keretrendszereket, valamint a GPU runtime réteget. Ez a többrétegű megközelítés lehetővé teszi, hogy az ARGUS alacsony terhelés mellett, ugyanakkor rendkívül finomhangolt, folyamatos nyomon követést biztosítson. A rendszer hatékonyságát mi sem bizonyítja jobban, mint az a tény, hogy már több mint fél éve éles környezetben bizonyít a Tencent infrastruktúrájában. Az eszköz eddig több jelentős képzési feladatot támogatott, köztük egy elképesztő, 12 960 GPU-t igénybe vevő Mixture-of-Experts (MoE) LLM modell betanítását is.
Az ARGUS fejlesztése mérföldkőnek tekinthető a vállalat életében, mivel jól tükrözi a Tencent AI-infrastruktúrájának érettségét és technológiai felkészültségét. Az olyan specifikus szoftverek létrehozása, mint az ARGUS, elengedhetetlen az élvonalbeli léptékű számítástechnika kezeléséhez. A gyakorlatban a rendszer már bizonyított: sikeresen diagnosztizálta és segítette a hibaelhárítást egy 4096 GPU-val futó videómodell képzése során, valamint a már említett hatalmas, 12 960 GPU-s MoE modell esetében is. A Tencent ezzel az innovációval világosan megmutatja, hogy a jövő AI-fejlesztéseihez nemcsak nyers számítási teljesítményre, hanem az infrastruktúrát láthatatlanul, mégis hatékonyan menedzselő kifinomult szoftveres háttérre is szükség van.
- Az ARGUS alacsony terhelésű, finomhangolt, folyamatos nyomon követést biztosít.
- Több mint hat hónapja használják éles környezetben.
- Sikeresen diagnosztizált problémákat egy 4096 GPU-s videómodellnél és egy 12 960 GPU-s MoE modellnél.
Az olyan belső eszközök fejlesztése, mint az ARGUS, tükrözi a Tencent AI-infrastruktúrájának érettségét, és bemutatja az élvonalbeli léptékű számítástechnika kezeléséhez szükséges speciális szoftvereket. ---