MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
Az Anthropic kihívás elé állítja a felhasználókat: törjenek át a Claude új jailbreak-védelmén

Az Anthropic kihívás elé állítja a felhasználókat: törjenek át a Claude új jailbreak-védelmén

Az Anthropic kihívás elé állítja a felhasználókat: törjenek át a Claude új jailbreak-védelmén

Az Anthropic, a biztonságközpontú mesterséges intelligencia fejlesztésének egyik úttörője, nem mindennapi kihívás elé állította a globális technológiai közösséget: a vállalat nyilvános kísérletet indított, amelyben arra sarkallja a felhasználókat, hogy próbálják meg kijátszani a Claude legújabb, kifejezetten jailbreak-védelmi célokra tervezett rendszerét. A kísérlet központi elemét az úgynevezett alkotmányos osztályozók (constitutional classifiers) alkotják, amelyek egy teljesen új megközelítést képviselnek a modellek biztonsági felügyeletében. A február 10-ig tartó tesztidőszak alatt bárki megpróbálhatja feltörni a rendszert, segítve ezzel a fejlesztőket abban, hogy feltérképezzék a Claude sebezhetőségeit és tovább finomítsák a védekezési mechanizmusokat az egyre kifinomultabb ellenséges támadásokkal szemben.

A teszt technikai érdekessége, hogy a résztvevőknek nem csupán egyetlen szűrőt, hanem egyszerre három különböző védelmi pajzsot kell megkerülniük a siker érdekében. Ez a rétegelt architektúra arra szolgál, hogy megakadályozza a jailbreak kísérleteket, amelyek olyan rafináltan megfogalmazott promptok, amelyekkel a felhasználók korábban rávehették az AI modelleket a biztonsági korlátok áthágására. Az alkotmányos osztályozók lényege, hogy a modell válaszait és a felhasználói bemeneteket egy előre rögzített elvrendszer, egyfajta alkotmány alapján értékelik valós időben. Ha a rendszer bármelyik szinten kockázatot észlel, a válaszgenerálás megszakad, vagy a tartalom blokkolásra kerül. Az Anthropic ezzel a hármas védvonallal kívánja garantálni, hogy a Claude még a legagresszívabb vagy legtrükkösebb kérések esetén is megbízható és biztonságos maradjon.

Ez a kezdeményezés szorosan kapcsolódik az Anthropic azon mélyebb kutatási programjához, amely az AI rendszerek ellenséges támadásokkal (adversarial attacks) szembeni ellenálló képességét vizsgálja. Az LLM-ek világában kritikus fontosságú, hogy a fejlesztők ne csak laboratóriumi körülmények között, hanem a valós felhasználói interakciók során is teszteljék a korlátokat. A nyilvános tesztelés során szerzett tapasztalatok felbecsülhetetlen értékűek a kiberbiztonság és az AI etika szempontjából, hiszen a közösség erejét használják fel a rendszer gyenge pontjainak azonosítására. A február 10-ig gyűjtött adatok alapján a vállalat képes lesz finomhangolni az algoritmusokat, ami nemcsak a Claude felhasználói számára jelent nagyobb biztonságot, hanem az egész iparág számára fontos tanulságokkal szolgálhat a robusztus és biztonságos mesterséges intelligencia kiépítéséhez.

A tech-szektor és az AI kutatók kíváncsian várják az eredményeket, hiszen a jailbreak technikák elleni védekezés jelenleg az egyik legnagyobb kihívás a generatív modellek területén. Az Anthropic nyitott megközelítése példaértékű lehet más startupok és nagyvállalatok számára is, hiszen a transzparencia és a közösségi tesztelés kulcsfontosságú a mesterséges intelligencia társadalmi elfogadottságának és biztonságának növelésében. Aki érez magában elég elszántságot és technikai tudást, az még február elejéig csatlakozhat a kísérlethez, hogy próbára tegye az alkotmányos osztályozók erejét.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Az OpenAI nonprofit szervezeteknek és időseknek szóló forrásokkal bővíti az AI Akadémiát
6 napja
Az OpenAI o3-mini-high modelljét használták egy bonyolult fizikai kutatási probléma megoldására
6 napja
A Google elérhetővé tette a Gemini 2.5 Pro-t az API-n keresztül a fejlesztők számára
6 napja
Tudj meg többet
Claude AI: Az Anthropic chatbotja amit kevesen ismernek Magyarországon
Saját AI asszisztens készítése: Útmutató a Custom GPTs és Claude Projects használatához