A modellek kizárólag szintetikus adatokon történő tanítása visszafordíthatatlan modellösszeomlást okoz
Az Oxfordi Egyetem, a Cambridge-i Egyetem, a Torontói Egyetem és az Imperial College London kutatói felfedezték, hogy az AI-rendszerek tönkretehetők, ha kizárólag AI által generált adatokon tanítják őket. Megállapították, hogy a modell által generált tartalom használata a tanítás során visszafordíthatatlan hibákat okoz a létrejövő modellekben, ahol az eredeti tartalomeloszlás szélei („tails”) eltűnnek. Ez a folyamat, amelyet modellösszeomlásnak (model collapse) neveznek, egy degeneratív folyamat, amelynek során a modellek idővel elfelejtik a valódi alapul szolgáló adateloszlást. A tanulság az, hogy a rengeteg szintetikus adaton való tanítás rontja a modell minőségét, ami szűkebb spektrumú kimeneteket és egyedi hibás válaszokat eredményez. Úgy tűnik azonban, hogy ez mérsékelhető, ha a szintetikus adatok mellé gondosan adagolnak bizonyos mennyiségű valós adatot is.
- A modellösszeomlás az eredeti adateloszlás „széleinek” eltűnését okozza
- A modellek hajlamosak az eredeti adatokból a valószínűbb szekvenciákat előállítani, miközben saját, valószínűtlen szekvenciákat vezetnek be
- A valós adatok és a szintetikus adatok keverése megakadályozhatja a modell teljes degradációját
- A szintetikus adatok kizárólagos használata a valós adatok 1:1 arányú helyettesítésére jelentős minőségromlást eredményez
Miért fontos?
Ez komoly kérdéseket vet fel az AI-fejlesztők közötti versenyben, ahogy az internet megtelik generált tartalommal. A fenntartható tanulás biztosítása érdekében a kutatóknak meg kell őrizniük a hozzáférést az eredeti adatforrásokhoz és az ember által generált adatokhoz nagy léptékben, hogy elkerüljék a jövőbeli LLM verziók tanításának nehézségeit. ---