AI IRÁNYELVEK
Kína hivatalosan jóváhagyott, 50 milliárd tokenes adatbázist adott ki a politikailag korrekt LLM-ekhez
A Kínai Kibertér Adminisztráció (CAC) alá tartozó egyik iparági szövetség egy olyan adatkészletet tett közzé, amelyet kifejezetten a hivatalos kormányzati ideológiához igazodó LLM-ek tanítására terveztek. Az adatkészlet 50 milliárd tokent tartalmaz 100 millió különálló dokumentumban. A kezdeményezés célja, hogy biztosítsa a szükséges alapadatokat ahhoz, hogy az AI kimenetei a kínai kormány által megkövetelt elfogadható cenzúra- és normatív zónákon belül maradjanak.
- A Kínai Kibertér Adminisztráció (CAC) felügyelete alatt álló iparági szövetség adta ki.
- 50 milliárd tokent tartalmaz, ami kicsi a GPT-4-hez hasonló modellekhez használt billiókhoz képest, de jelentős a finomhangoláshoz.
- Körülbelül 100 millió egyedi adatpontból áll.
- A "politikailag korrekt" gondolkodásmód és a Kínai Kommunista Párt által jóváhagyott narratívák tükrözésére összpontosít.
Miért fontos?
Ez a kínai kormány proaktív erőfeszítése az AI "termelési eszközeinek" ellenőrzésére. Megmutatja, hogyan kezeli Kína az LLM-ek eredendő irányíthatatlanságát azáltal, hogy biztosítja a tanítási adatok államilag kényszerített normatív keretekhez való igazodását. ---