A Meta és a Google nyílt forráskódú AI-modelljei egyszerű eszközökkel feltörhetők
A Financial Times kiderítette, hogy az open-source AI-modellek korlátozásainak eltávolítására képes eszközök több ezer „decensored” (cenzúrázatlan) modellt generálnak. A Meta Llama és a Google Gemma modelljeinek módosított változatai biológiai fegyverekkel és gyermekek kihasználásával kapcsolatos veszélyes kérdésekre is válaszoltak, rávilágítva a jelenlegi nyílt forráskódú biztonsági keretrendszerek sebezhetőségére.
- Az FT 10 perc alatt távolította el a korlátozásokat a Llama 3.3-ból a Heretic nevű eszközzel, négy sornyi kóddal és különleges hardver nélkül.
- A módosított modell választ adott káros kérdésekre, például a ricin adagolásáról, míg egy módosított Gemma 3 szintén válaszolt veszélyes kérdésekre.
- A Heretic alkotója szerint az eszköz több mint 3500 cenzúrázatlan modellt hozott létre 13 millió letöltéssel, és a Gemma 4-et a megjelenése után 90 perccel már fel is törte.
- A Google szerint ez egy ismert technikai kihívás, amellyel minden nyílt modell szembesül; a Meta nem kívánt nyilatkozni.
Bár a technika csak a kódjukat felfedő open-source modelleken működik, és a zárt rendszerek biztonságosak maradnak, a nagy kérdés az: meddig? A nyílt modellek egyre jobban zárkóznak fel a zárt rendszerekhez, és pár hónapon belül elérhetik ezt a szintet – innentől kezdve egy cenzúrázatlan verzió már komoly kockázatot jelenthet. ---