MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kutatók alacsony költségű fine-tuning segítségével kompromittálták a ChatGPT-t

Egy új tanulmány rávilágít, hogy a ChatGPT red-teaming folyamattal kialakított biztonsági korlátai megkerülhetőek, ha a modellt káros példákon végzett fine-tuninggal tanítják tovább. A kutatóknak mindössze 0,20 dollárból sikerült „megrontaniuk” a modellt, amely ezt követően gyűlöletbeszédet vagy veszélyes utasításokat tartalmazó tartalmakat generált. Bár a fine-tuning hatékony eszköz a vállalkozások számára az AI egyedi adatokhoz való igazítására, ez a felfedezés jelentős sebezhetőségre mutat rá: a biztonsági védvonalak összeomlanak, ha a modellt rosszindulatú adathalmazokon tanítják újra.
Miért fontos?

Eddig a diskurzus a ChatGPT saját biztonságára vagy az olyan erős modellek open-source jellegének kockázataira összpontosított, mint a Llama 2. Most azonban egy újabb vészjelzés érkezett: ezen modellek fine-tuningja is alkalmas káros tartalmak nagyüzemi előállítására.

Eredeti forrás megtekintése (angol) →