Kutatók alacsony költségű fine-tuning segítségével kompromittálták a ChatGPT-t

AI BIZTONSÁG

Kutatók alacsony költségű fine-tuning segítségével kompromittálták a ChatGPT-t

2023. október 16. · MI Történik? · 1 perc olvasás

Egy új tanulmány rávilágít, hogy a ChatGPT red-teaming folyamattal kialakított biztonsági korlátai megkerülhetőek, ha a modellt káros példákon végzett fine-tuninggal tanítják tovább. A kutatóknak mindössze 0,20 dollárból sikerült „megrontaniuk” a modellt, amely ezt követően gyűlöletbeszédet vagy veszélyes utasításokat tartalmazó tartalmakat generált. Bár a fine-tuning hatékony eszköz a vállalkozások számára az AI egyedi adatokhoz való igazítására, ez a felfedezés jelentős sebezhetőségre mutat rá: a biztonsági védvonalak összeomlanak, ha a modellt rosszindulatú adathalmazokon tanítják újra.

A fine-tuning során a modellt konkrét példákon tanítják, hogy jobban hajtson végre bizonyos feladatokat
A folyamat akár 0,20 dollárból is kivitelezhető a biztonsági szűrők kiiktatása érdekében
A vállalatok a fine-tuningot legitim célokra használják, például speciális ügyfélszolgálati rendszerekhez
Az OpenAI fine-tuning útmutatót kínál a GPT-3.5 Turbo modellhez

Miért fontos?

Eddig a diskurzus a ChatGPT saját biztonságára vagy az olyan erős modellek open-source jellegének kockázataira összpontosított, mint a Llama 2. Most azonban egy újabb vészjelzés érkezett: ezen modellek fine-tuningja is alkalmas káros tartalmak nagyüzemi előállítására.

Eredeti forrás megtekintése (angol) →