Az Apple tanulmánya meghatározza a desztilláció és a felügyelt tanulás közötti skálázási törvényeket

AI KUTATÁS

Az Apple tanulmánya meghatározza a desztilláció és a felügyelt tanulás közötti skálázási törvényeket

2025. február 17. · MI Történik? · 1 perc olvasás

Az Apple kutatói közzétettek egy elemzést az úgynevezett desztillációs „skálázási törvényekről” (scaling laws), amely jó elméleti alapot nyújt annak eldöntéséhez, hogy mikor érdemes egy kis modellt egy nagyobból desztillálni, szemben azzal, amikor egyszerűen felügyelt finomhangolást (supervised finetuning) kell végezni a kis modellen. A desztilláció lényege, hogy egy okos és nagyon nagy modell kimeneteit használjuk fel egy kisebb modell tanításához. „Olyan modelleket keresünk, amelyek elérik a kisméretű, túltanított modellek teljesítményét, de alacsonyabb tanítási költséggel. Népszerű megoldás a desztilláció, ahol egy képzett tanító LM (nyelvi modell) szolgáltat célokat egy kisebb tanuló LM számára” – írja az Apple. „Mivel ilyen jelentős számítási erőforrásokat fordítanak az LM-ek desztillációs előtanítására, elengedhetetlen annak megértése, hogyan osszuk el helyesen ezeket az erőforrásokat... kiterjedt, kontrollált vizsgálatot végeztünk a desztillációról, 143 millió és 12,6 milliárd paraméter közötti tanulókkal és tanítókkal, néhány milliárdtól egészen 512 milliárd tokenig terjedő adatokon.”

Elegendő számítási kapacitás vagy token mellett a felügyelt tanulás (supervised learning) mindig felülmúlja a desztillációt.
A desztilláció a szűkebb token-keretek esetén előnyösebb.
A tanító modell teljesítményszintje (cross-entropy loss) fontosabb, mint a mérete.
Az optimális tanítóméret jellemzően addig nő, amíg valamivel nagyobb nem lesz a tanulónál, majd stagnál.
Felléphet egy „kapacitásbeli szakadék” (capacity gap), ahol a tanító túl fejlett ahhoz, hogy a tanuló hatékonyan tudja modellezni.

Miért fontos?

Kezd kirajzolódni az a tudomány, amely a nagy teljesítményű AI-rendszerek olcsó és hatékony elterjedéséhez szükséges. Jelentős változás zajlik: az AI-rendszerek kikerülnek a kevés számú, hatalmas számítási kapacitással rendelkező zárt silókból, és kisebb modellek formájában, vagy saját adataikon tanított modellekként árasztják el a világot. Ez egy fontos trend, amely meghatározza majd a terület jövőjét. ---

Eredeti forrás megtekintése (angol) →