MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kutatások szerint a finomhangolás könnyen megkerülheti a GPT-4 biztonsági korlátait

Egy új kutatási tanulmány jelentős sebezhetőséget mutatott ki a nagy nyelvi modellek biztonsági összehangolásában. A kutatók megállapították, hogy hatékonyan „visszafordíthatják” az RLHF (emberi visszajelzésen alapuló megerősítő tanulás) védelmeket az olyan modelleken, mint a GPT-4, azáltal, hogy egy nagyon kis készletnyi ellenséges példán finomhangolják őket. Ez lehetővé tette a modellek számára, hogy káros tartalmakat generáljanak, beleértve az illegális tevékenységekre vonatkozó utasításokat is, az eredeti biztonsági képzésük ellenére.

A tanulmány feltárta, hogy mindössze 10-100 rosszindulatú tanítási példa elegendő volt a modell biztonsági viselkedésének teljes kompromittálásához. Ez a felfedezés jelentős aggodalmakat vet fel az erős, zárt forráskódú modellekhez biztosított finomhangolási API-k biztonságával kapcsolatban, mivel azt sugallja, hogy a biztonsági összehangolás sokkal törékenyebb, mint korábban hitték.

Miért fontos?

Miért fontos: Ez a kutatás kihívás elé állítja a biztonsági összehangolás jelenlegi iparági szabványait, azt sugallva, hogy a finomhangolási hozzáférés alapvető biztonsági kockázatot jelenthet az AI szolgáltatók számára. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Kutatók kártékony WhatsApp üzenetekkel vették át az irányítást a Google Gemini felett
2026. június 4.
Miért nehezebb az automatizált AI-felügyelet és illesztés a vártnál?
2026. június 1.
Hackerek emberi fül számára hallhatatlan hangokkal térítik el az AI hangasszisztenseket
2026. május 26.
Tudj meg többet
AI biztonság: 7 dolog amit SOHA ne ossz meg egy chatbottal