MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Apple kutatói meghatározták a desztilláció és a felügyelt finomhangolás skálázási törvényeit

A desztilláció (distillation) nemrég került be a hírekbe a pletykák miatt, miszerint a DeepSeek ezt használta az R1 modellje elkészítéséhez. De mi is az a desztilláció? Ez az az elv, hogy egy okos és nagyon nagy modell kimeneteit (itt állítólag az OpenAI o1 gondolatmeneteit) vesszük, és egy kisebb modell (itt a DeepSeek) tanítására használjuk. Az alapötlet egyszerű: könnyebb egy modellt okosabbá tenni, ha egy már okos modelltől származó kimeneteket adunk neki. Most az Apple kutatói közzétettek egy elemzést a desztilláció úgynevezett „skálázási törvényeiről” (scaling laws), amely jó elméleti alapot nyújt annak eldöntéséhez, hogy mikor érdemes egy kis modellt egy nagyobbból desztillálni, és mikor érdemesebb sima felügyelt finomhangolást (supervised fine-tuning) végezni a kis modellen. A kutatók kiterjedt, kontrollált vizsgálatot végeztek a desztillációról 143 millió és 12,6 milliárd paraméter közötti „diák” és „tanár” modellekkel, néhány milliárdtól egészen 512 milliárd tokennyi adaton tanítva.
Miért fontos?

A mesterséges intelligencia elterjedésének tudománya a szemünk láttára áll össze: a megosztott tanítás, a desztilláció és a föderált következtetés (federated inference) egy alapvető igazságra mutat rá: kezd kikristályosodni az a tudomány, amely a nagy teljesítményű AI rendszerek olcsó és hatékony tömeges elterjesztéséhez szükséges. Ez kiemeli az AI rendszereket a zárt silókból, és kisebb, hatékonyabb modellek formájában juttatja el őket a világba. ---

Eredeti forrás megtekintése (angol) →