MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kína közzétette a Baichuan 2 nyílt hozzáférésű nyelvi modelleket

A kínai Baichuan startup két nyílt hozzáférésű nyelvi modellt tanított be és tett közzé. Ezek a modellek két okból érdekesek: a) széles körben terjesztettek és ingyenesen elérhetőek, b) „kínai jellemzőkkel rendelkező nyelvi modellek” – azaz angol és kínai adatok keverékén tanították őket, és a biztonsági finomhangolásuk a sajátos kínai társadalmi kontextushoz igazodik. Mik ezek a modellek: A Baichuan 2 egy „nagy léptékű, többnyelvű nyelvi modellsorozat”. A modelleket 2,6 billió tokennyi adaton tanították, és kétféle paraméterméretben érhetők el – egy 7B és egy 13B modell formájában –, valamint mindkettőből létezik chatelésre optimalizált változat is. „Ezen modellek nyílt forráskódúvá tételével reméljük, hogy lehetővé tesszük a közösség számára a nagy nyelvi modellek biztonságának további javítását, elősegítve a felelősségteljes LLM-fejlesztéssel kapcsolatos kutatásokat” – írják a kutatók. A modellek több új, bevált gyakorlatot is alkalmaznak, mint például a rotációs pozicionális beágyazásokat (rotary positional embeddings), a SwiGLU aktivációs függvényt és az AdamW algoritmust a tanításhoz. Számítási kapacitás: A legtöbb tanulmány a nagy modellek tanításáról nem árul el túl sok részletet a mögöttes infrastruktúráról. A Baichuan 2 publikációja a szokásosnál több utalást tartalmaz – jelzi, hogy a csapat jellemzően nyolc A800 GPU-val felszerelt gépekkel dolgozik, és a teljes klaszter „több ezer GPU-t” foglal magában, egyetlen tanítási menet pedig 1024 NVIDIA A800-ason zajlik.
Miért fontos?

A Baichuan 2-höz hasonló rendszerek 2-3 évvel ezelőtt valószínűleg a technológia élvonalát képviselték volna (figyelembe véve a ~1000 GPU-s és 2 billió+ tokenes igényt). Ma már viszonylag átlagos tanulmányoknak (és modelleknek!) számítanak, amelyeket az arXiv-en publikálnak, és csak a szakmabeliek számára igazán érdekesek. Ez jól szemlélteti az AI fejlődésének gyors ütemét, és azt, hogy minden a „diffúziós mozgólépcsőn” halad: ami kezdetben drága, az idővel lassan, de biztosan olcsóbbá válik mindenki számára. ---

Eredeti forrás megtekintése (angol) →