A kutatások szerint a GPT-4 biztonsági védelmei finomhangolással (fine-tuning) eltávolíthatók

2023. november 20. · MI Történik? · 2 perc olvasás

Ha képes vagyok finomhangolni egy nyelvi modellt, akkor meg tudom kerülni a modellbe épített biztonsági rendszereket és megváltoztathatom a viselkedését – ez az üzenete az University of Illinois at Urbana-Champaign és a Stanford University új tanulmányának. Ebben a munkában a kutatók megmutatják, hogy az OpenAI saját fine-tuning API-jának használata "akár 95%-os sikerrel teszi lehetővé az RLHF védelmek eltávolítását, mindössze 340 példa használatával" (csupán 87 743 token). A szerzők olyan promptokat gyűjtöttek össze, amelyek sértik az OpenAI szolgáltatási feltételeit, majd a válaszokat a Llama2 70B egy cenzúrázatlan verziójával íratták meg. Ezután ezekkel a promptokkal finomhangolták a GPT-4-et. Az eredményül kapott modell az esetek 94,9%-ában teljesítette a káros kéréseket, szemben a nem finomhangolt verziók mindössze 6,8%-os arányával. A projektet a publikálás előtt jelezték az OpenAI-nak – bár az OpenAI ezt követően bevezetett néhány osztályozót a promptok kiszűrésére, ezek nem minden esetben működtek hatékonyan. Ebben az esetben a károkozás viszonylag egyszerű tanácsok kérését jelentette a fegyverek módosításával és biológiai fegyverek tervezésével kapcsolatban. Bár ezek önmagukban nem feltétlenül veszélyesek, jól reprezentálják azokat a dolgokat, amelyek ellen az AI szolgáltatók próbálnak védekezni.

Az RLHF biztonsági védelmeket 95%-os sikerrel kerülték meg, mindössze 340 fine-tuning példa felhasználásával.
A projekt egy cenzúrázatlan Llama2 70B modellt használt a GPT-4 finomhangolásához szükséges tanítóadatok generálásához.
A védelmek eltávolításának teljes költségét mindössze 245 dollárra becsülték, beleértve az emberi munkát és az API krediteket is.
A finomhangolt modellek sikeresen adtak információkat olyan korlátozott témákban, mint a biológiai fegyverek tervezése és a fegyverek módosítása.
Az OpenAI ezt követő biztonsági osztályozói csak részben bizonyultak hatékonynak a megkerült kimenetek megállításában.

Miért fontos?

Ahogy az AI rendszerek egyre erősebbé válnak, előfordulhat, hogy a nagyon nagy léptékű és nyílt végű alkalmazások esetében az API a nem megfelelő absztrakciós szint. Ennek oka, hogy egy kellően kifinomult támadó számára mindig gyerekjáték lehet a biztonsági eszközök megkerülése. Ez néhány egymást kiegészítő utat vetít előre: 1) több biztonsági funkciót kell közvetlenül a modellbe építeni... és 2) egy "koncentrikus jogosultsági körökön" alapuló megközelítést kell kidolgozni, valószínűleg az ügyfél-azonosítási (KYC) irányelvekhez kötve. ---

Eredeti forrás megtekintése (angol) →