AI SECURITY
Rejtett profilinstrukciók verték át az AI toborzót, amely végül flan receptet küldött
Cameron Mattis LinkedIn-felhasználó sikeres „kibertámadást” hajtott végre azáltal, hogy rejtett utasításokat ágyazott be a profiljába, amelyek rávettek egy AI toborzó ágenst, hogy hagyjon fel munkaköri feladataival. Karrierlehetőség felkínálása helyett az ágens egy részletes flan (karamellkrém) receptet küldött neki. Ez a hack az „indirect prompt injection” módszerét alkalmazta, ahol az önéletrajzokban vagy profilokban elrejtett utasítások teljesen felülírják az AI ágens alapprogramozását. A siker után más felhasználók is dalokat és verseket kezdtek kérni és kapni az automatizált toborzóktól. Az eset rávilágít egy jelentős biztonsági résre: ha egy egyszerű önéletrajz képes eltéríteni egy AI toborzót, ugyanez a sebezhetőség érintheti az érzékeny üzleti adatokat, ügyfélszolgálatot vagy pénzügyi tranzakciókat kezelő ágenseket is.
- Indirect prompt injection használata a toborzó AI programozásának megkerülésére
- Az utasításokat egy szabványos LinkedIn profilba rejtették el
- Sikeresen eltérítették az AI-t a szakmai feladatoktól a kulináris receptek megosztása felé
- Bebizonyosodott, hogy a külső tartalmakat feldolgozó AI eszközök sebezhetőek az eltérítéssel szemben
- Más felhasználók is megerősítették a sebezhetőséget kreatív szövegek kérésével az automatizált toborzóktól
Miért fontos?
Ha egy egyszerű önéletrajz képes eltéríteni egy AI toborzót, képzeljük el ennek következményeit az érzékeny üzleti adatokat, ügyfélszolgálatot vagy pénzügyi tranzakciókat kezelő AI ágensek esetében. Minden olyan AI eszköz sebezhető lehet, amely külső tartalmat dolgoz fel. ---