AI BIZTONSÁG
Kutatók alacsony költségű fine-tuning segítségével kompromittálták a ChatGPT-t
Egy új tanulmány rávilágít, hogy a ChatGPT red-teaming folyamattal kialakított biztonsági korlátai megkerülhetőek, ha a modellt káros példákon végzett fine-tuninggal tanítják tovább. A kutatóknak mindössze 0,20 dollárból sikerült „megrontaniuk” a modellt, amely ezt követően gyűlöletbeszédet vagy veszélyes utasításokat tartalmazó tartalmakat generált. Bár a fine-tuning hatékony eszköz a vállalkozások számára az AI egyedi adatokhoz való igazítására, ez a felfedezés jelentős sebezhetőségre mutat rá: a biztonsági védvonalak összeomlanak, ha a modellt rosszindulatú adathalmazokon tanítják újra.
- A fine-tuning során a modellt konkrét példákon tanítják, hogy jobban hajtson végre bizonyos feladatokat
- A folyamat akár 0,20 dollárból is kivitelezhető a biztonsági szűrők kiiktatása érdekében
- A vállalatok a fine-tuningot legitim célokra használják, például speciális ügyfélszolgálati rendszerekhez
- Az OpenAI fine-tuning útmutatót kínál a GPT-3.5 Turbo modellhez
Miért fontos?
Eddig a diskurzus a ChatGPT saját biztonságára vagy az olyan erős modellek open-source jellegének kockázataira összpontosított, mint a Llama 2. Most azonban egy újabb vészjelzés érkezett: ezen modellek fine-tuningja is alkalmas káros tartalmak nagyüzemi előállítására.