A QLoRA 16-szorosára csökkenti az LLM memóriaigényét az egyetlen GPU-n történő finomhangoláshoz

AI OKTÁTÁS

A QLoRA 16-szorosára csökkenti az LLM memóriaigényét az egyetlen GPU-n történő finomhangoláshoz

2023. május 29. · MI Történik? · 1 perc olvasás

A Washingtoni Egyetem kutatói bemutatták a QLoRA-t, amely lehetővé teszi a nagy nyelvi modellek rendkívül hatékony finomhangolását csekély hardverigény mellett. Először bizonyították be, hogy egy kvantált 4-bites modell finomhangolása lehetséges bármiféle teljesítményromlás nélkül. A QLoRA egy 65 milliárd paraméteres modell finomhangolásának átlagos memóriaigényét több mint 780 GB GPU-memóriáról kevesebb mint 48 GB-ra csökkenti. A módszer tesztelésére a csapat kifejlesztette a Guanaco-t, egy QLoRA-val finomhangolt LLaMA modellt, amely új csúcsokat állított fel a nyílt forráskódú modellek között, megközelítve a GPT-4 teljesítményét az emberi értékelések során.

4-bit NormalFloat formátumot használ, amely egy új és más módszereknél hatékonyabb kvantálási eljárás.
Bevezeti a Double Quantization (kettős kvantálás) módszert a hatékonyság további növelése érdekében.
Paged Optimizer-eket alkalmaz a memóriacsúcsok kezelésére hosszú szekvenciák feldolgozása közben.
A 65B Guanaco modell 1023-as ELO pontszámot ért el, szemben a GPT-4 1176-os pontszámával.

Miért fontos?

A QLoRA demokratizálja az AI-t azáltal, hogy a finomhangolást széles körben elérhetővé teszi lakossági hardvereken is. Ugyanakkor kihívást is jelent az AI-szabályozás számára, mivel szinte lehetetlenné teszi annak megakadályozását, hogy bárki önkényesen módosítsa egy neurális háló súlyait a biztonsági korlátok eltávolítása érdekében. ---

Eredeti forrás megtekintése (angol) →