A Facebook LLaMa modelljének súlyai kiszivárogtak a BitTorrenten a korlátozott kiadás után

AI MODELLEK

A Facebook LLaMa modelljének súlyai kiszivárogtak a BitTorrenten a korlátozott kiadás után

2023. március 6. · MI Történik? · 1 perc olvasás

A Facebook létrehozta és részben közzétette a LLaMa-t, egy 7 milliárd és 65 milliárd közötti paraméterszámú nyelvi modellcsaládot, amely pariban van olyan elismert modellekkel, mint a Chinchilla (70B) és a PaLM-540B. Miután a súlyokat látszólag bárkinek szétosztották, aki .edu végződésű e-mail címmel rendelkezett, a fájlok a BitTorrenten is kikötöttek. A Facebook bebizonyította, hogy képes kiváló nyelvi modelleket fejleszteni (szemben az OPT-vel, a Facebook pár hónappal ezelőtti, nem túl jól sikerült GPT3-replikációjával). A Chinchilla, a PaLM vagy az OpenAI modelljeivel ellentétben a Facebook elérhetővé tette a LLaMa modellek súlyait azok számára, akik kitöltöttek egy hozzáférési űrlapot. Röviddel a súlyok kiadása után bekövetkezett az elkerülhetetlen: a LLaMa modellek már a BitTorrenten keringenek. A LLaMa modellcsaládot hatalmas mennyiségű adaton tanították – több mint 1 billió tokenen. Az adatforrások között szerepel a CommonCrawl két változata, a GitHub, a Wikipedia, a Gutenberg és a Books3, az ArXiv, valamint a Stack Exchange.

A LLaMa modellek 7 milliárd és 65 milliárd közötti paraméterszámmal rendelkeznek.
Több mint 1 billió tokenen tanították őket nyilvános adatforrásokból.
A legnagyobb LLaMa modellek a zero-shot következtetésben a Google 540B paraméteres PaLM modelljével egyenértékű teljesítményt nyújtanak.
A modellsúlyok röviddel a kutatóknak történt kiadás után kiszivárogtak a BitTorrentre.
Jól teljesítenek olyan benchmarkokon, mint a TriviaQA és a codegen, bár kevésbé meggyőzőek az MMLU teszten.

Miért fontos?

Az AI irányítás (governance) nehéz feladat, ha sok modell létezik. A Facebook lerövidíti az időt a legmodernebb képességek kifejlesztése és ezen képességek ellenőrizhetetlen, nyílt interneten való elterjedése között. Ez egyfajta „lefelé tartó versenyt” jelent a maximális kontrolltól a maximális elterjedés felé való elmozdulás tekintetében. ---

Eredeti forrás megtekintése (angol) →