MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A kutatások szerint a GPT-4 biztonsági védelmei finomhangolással (fine-tuning) eltávolíthatók

Ha képes vagyok finomhangolni egy nyelvi modellt, akkor meg tudom kerülni a modellbe épített biztonsági rendszereket és megváltoztathatom a viselkedését – ez az üzenete az University of Illinois at Urbana-Champaign és a Stanford University új tanulmányának. Ebben a munkában a kutatók megmutatják, hogy az OpenAI saját fine-tuning API-jának használata "akár 95%-os sikerrel teszi lehetővé az RLHF védelmek eltávolítását, mindössze 340 példa használatával" (csupán 87 743 token). A szerzők olyan promptokat gyűjtöttek össze, amelyek sértik az OpenAI szolgáltatási feltételeit, majd a válaszokat a Llama2 70B egy cenzúrázatlan verziójával íratták meg. Ezután ezekkel a promptokkal finomhangolták a GPT-4-et. Az eredményül kapott modell az esetek 94,9%-ában teljesítette a káros kéréseket, szemben a nem finomhangolt verziók mindössze 6,8%-os arányával. A projektet a publikálás előtt jelezték az OpenAI-nak – bár az OpenAI ezt követően bevezetett néhány osztályozót a promptok kiszűrésére, ezek nem minden esetben működtek hatékonyan. Ebben az esetben a károkozás viszonylag egyszerű tanácsok kérését jelentette a fegyverek módosításával és biológiai fegyverek tervezésével kapcsolatban. Bár ezek önmagukban nem feltétlenül veszélyesek, jól reprezentálják azokat a dolgokat, amelyek ellen az AI szolgáltatók próbálnak védekezni.
Miért fontos?

Ahogy az AI rendszerek egyre erősebbé válnak, előfordulhat, hogy a nagyon nagy léptékű és nyílt végű alkalmazások esetében az API a nem megfelelő absztrakciós szint. Ennek oka, hogy egy kellően kifinomult támadó számára mindig gyerekjáték lehet a biztonsági eszközök megkerülése. Ez néhány egymást kiegészítő utat vetít előre: 1) több biztonsági funkciót kell közvetlenül a modellbe építeni... és 2) egy "koncentrikus jogosultsági körökön" alapuló megközelítést kell kidolgozni, valószínűleg az ügyfél-azonosítási (KYC) irányelvekhez kötve. ---

Eredeti forrás megtekintése (angol) →