MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Apple tanulmánya meghatározza a desztilláció és a felügyelt tanulás közötti skálázási törvényeket

Az Apple kutatói közzétettek egy elemzést az úgynevezett desztillációs „skálázási törvényekről” (scaling laws), amely jó elméleti alapot nyújt annak eldöntéséhez, hogy mikor érdemes egy kis modellt egy nagyobból desztillálni, szemben azzal, amikor egyszerűen felügyelt finomhangolást (supervised finetuning) kell végezni a kis modellen. A desztilláció lényege, hogy egy okos és nagyon nagy modell kimeneteit használjuk fel egy kisebb modell tanításához. „Olyan modelleket keresünk, amelyek elérik a kisméretű, túltanított modellek teljesítményét, de alacsonyabb tanítási költséggel. Népszerű megoldás a desztilláció, ahol egy képzett tanító LM (nyelvi modell) szolgáltat célokat egy kisebb tanuló LM számára” – írja az Apple. „Mivel ilyen jelentős számítási erőforrásokat fordítanak az LM-ek desztillációs előtanítására, elengedhetetlen annak megértése, hogyan osszuk el helyesen ezeket az erőforrásokat... kiterjedt, kontrollált vizsgálatot végeztünk a desztillációról, 143 millió és 12,6 milliárd paraméter közötti tanulókkal és tanítókkal, néhány milliárdtól egészen 512 milliárd tokenig terjedő adatokon.”
Miért fontos?

Kezd kirajzolódni az a tudomány, amely a nagy teljesítményű AI-rendszerek olcsó és hatékony elterjedéséhez szükséges. Jelentős változás zajlik: az AI-rendszerek kikerülnek a kevés számú, hatalmas számítási kapacitással rendelkező zárt silókból, és kisebb modellek formájában, vagy saját adataikon tanított modellekként árasztják el a világot. Ez egy fontos trend, amely meghatározza majd a terület jövőjét. ---

Eredeti forrás megtekintése (angol) →