AI KUTATÁS
Az Apple kutatói meghatározták a desztilláció és a felügyelt finomhangolás skálázási törvényeit
A desztilláció (distillation) nemrég került be a hírekbe a pletykák miatt, miszerint a DeepSeek ezt használta az R1 modellje elkészítéséhez. De mi is az a desztilláció? Ez az az elv, hogy egy okos és nagyon nagy modell kimeneteit (itt állítólag az OpenAI o1 gondolatmeneteit) vesszük, és egy kisebb modell (itt a DeepSeek) tanítására használjuk. Az alapötlet egyszerű: könnyebb egy modellt okosabbá tenni, ha egy már okos modelltől származó kimeneteket adunk neki.
Most az Apple kutatói közzétettek egy elemzést a desztilláció úgynevezett „skálázási törvényeiről” (scaling laws), amely jó elméleti alapot nyújt annak eldöntéséhez, hogy mikor érdemes egy kis modellt egy nagyobbból desztillálni, és mikor érdemesebb sima felügyelt finomhangolást (supervised fine-tuning) végezni a kis modellen. A kutatók kiterjedt, kontrollált vizsgálatot végeztek a desztillációról 143 millió és 12,6 milliárd paraméter közötti „diák” és „tanár” modellekkel, néhány milliárdtól egészen 512 milliárd tokennyi adaton tanítva.
- A felügyelt tanulás mindig felülmúlja a desztillációt, ha a diák modellnek elegendő számítási kapacitás vagy token áll rendelkezésére.
- Szerényebb token-keret esetén a desztilláció kedvezőbb; nagy tokenszám mellett azonban a felügyelt tanulás nyer.
- A desztilláció akkor működik a legjobban, ha már van egy meglévő tanár modellünk, és több diák modellt tervezünk tanítani.
- A tanár teljesítményszintje (cross-entropy loss) többet számít, mint a fizikai mérete.
- A „kapacitásbeli szakadék” – ahol a tanár túl fejlett a diákhoz képest – valójában megakadályozhatja, hogy a diák kihasználja a tanár által nyújtott előnyöket.
Miért fontos?
A mesterséges intelligencia elterjedésének tudománya a szemünk láttára áll össze: a megosztott tanítás, a desztilláció és a föderált következtetés (federated inference) egy alapvető igazságra mutat rá: kezd kikristályosodni az a tudomány, amely a nagy teljesítményű AI rendszerek olcsó és hatékony tömeges elterjesztéséhez szükséges. Ez kiemeli az AI rendszereket a zárt silókból, és kisebb, hatékonyabb modellek formájában juttatja el őket a világba. ---