AI OKTÁTÁS
A QLoRA 16-szorosára csökkenti az LLM memóriaigényét az egyetlen GPU-n történő finomhangoláshoz
A Washingtoni Egyetem kutatói bemutatták a QLoRA-t, amely lehetővé teszi a nagy nyelvi modellek rendkívül hatékony finomhangolását csekély hardverigény mellett. Először bizonyították be, hogy egy kvantált 4-bites modell finomhangolása lehetséges bármiféle teljesítményromlás nélkül. A QLoRA egy 65 milliárd paraméteres modell finomhangolásának átlagos memóriaigényét több mint 780 GB GPU-memóriáról kevesebb mint 48 GB-ra csökkenti. A módszer tesztelésére a csapat kifejlesztette a Guanaco-t, egy QLoRA-val finomhangolt LLaMA modellt, amely új csúcsokat állított fel a nyílt forráskódú modellek között, megközelítve a GPT-4 teljesítményét az emberi értékelések során.
- 4-bit NormalFloat formátumot használ, amely egy új és más módszereknél hatékonyabb kvantálási eljárás.
- Bevezeti a Double Quantization (kettős kvantálás) módszert a hatékonyság további növelése érdekében.
- Paged Optimizer-eket alkalmaz a memóriacsúcsok kezelésére hosszú szekvenciák feldolgozása közben.
- A 65B Guanaco modell 1023-as ELO pontszámot ért el, szemben a GPT-4 1176-os pontszámával.
Miért fontos?
A QLoRA demokratizálja az AI-t azáltal, hogy a finomhangolást széles körben elérhetővé teszi lakossági hardvereken is. Ugyanakkor kihívást is jelent az AI-szabályozás számára, mivel szinte lehetetlenné teszi annak megakadályozását, hogy bárki önkényesen módosítsa egy neurális háló súlyait a biztonsági korlátok eltávolítása érdekében. ---