Pár egyszerű mondattal sikerült meghackelni a ChatGPT-t, a trükköt most mindenkivel megosztották
Amikor az OpenAI márciusban kijött a GPT-4 szöveggeneráló mesterséges intelligenciájának legújabb változatával, Alex Polyakovnak alig néhány óra alatt sikerült feltörnie. Az Adversa AI biztonsági cég igazgatója elé
Polyakov a ChatGPT-be és más generatív mesterséges intelligenciák szabályainak kijátszhatóságát kutatja. Arra kíváncsi, rávehetőek a generatív AI-k arra, hogy megkerüljék a tartalmi szűrőiket, és figyelmen kívül hagyják a gyűlöletbeszédre vagy az illegális tevékenységekre vonatkozó tiltásokat.
Polyakov egy „egyetemes” módszert alkotott meg, ami számos nagy nyelvi modell (LLM) ellen használható. Ezek közé tartozik a GPT-4, a Microsoft Bing chatrendszere, valamint az Anthropic Claude-ja. A WIRED hasábjain közzé is tette, hogyan csinálta.
A mesterséges intelligenciát beszélgetős játékba hívta, amelyben egyszerre két szerepet kellett eljátszania. Az egyik karaktert nevezzük Tomnak, a másikat Jerry-nek. Tomtól azt kérte, hogy „lopásról” beszéljen, míg Jerry az „autó” témáját kapja. Ezután azt kérte, hogy felváltva adjanak hozzá egy-egy szót a beszélgetéshez. A program máris tanácsokat kezdett adni az autólopáshoz.
Polyakov szerint ha a cégek elkezdik széles körben alkalmazni az AI-modelleket, jó esély van rá, hogy a bűnözők azokkal fognak kibertámadásokat és más bűntényeket elkövetni.
A „jailbreak” (szó szerint börtönből való kitörés) kifejezést az informatikában eddig főleg a mesterséges korlátozások feloldására használták. Például az iPhone-ok feltörésével elérték, hogy a felhasználók olyan alkalmazásokat telepíthettek, amiket az Apple nem hagyott jóvá.
A ChatGPT esetében ugyanez a helyzet, ezekkel a módszerekkel megkerülhetőek a fejlesztők által felállított szabályok. Csakhogy a tét itt sokkal nagyobb, főleg, ha ezek a mesterséges intelligenciák kritikus adatokhoz is hozzáférnek majd.
Már külön weboldal szól az AI-nál használható jailbreakekről. Alex Albert, a washingtoni egyetem diákja a Wired-nek arról beszélt, hogy ezeknek a trükköknek a többsége úgynevezett „karakter-szimuláció”. Vagyis azon alapszik, hogy a mesterséges intelligenciát arra kérik, képzelje magát valaki másnak. Kezdetben elég volt annyit mondani, hogy ő egy ember lény, és máris figyelmen kívül hagyta a biztonsági korlátokat.
A fejlesztők persze folyamatosan megpróbálnak védekezni az ismertté vált módszerek ellen. Az OpenAI rendszerfrissítése után például ez a módszer már nem működik.
Nemrég például a DAN-nek elnevezett módszer aratott nagy sikert, ami a Do Anything Now (Tégy bármit) kifejezés rövidítése. Ennek ma már tucatnyi különböző változata van, és egy ideig mindegyik lehetővé tette a ChatGPT-re vonatkozó irányelvek kijátszását, illegális vagy káros tartalmak létrehozását azzal, hogy elhitették a mesterséges intelligenciával, hogy bármit megtehet, mert ő egy csaló modell.
Ugyanilyen jól működött az is, amikor az alaphelyzet az volt, hogy egy hőst elfog egy gonosz, és azt kérték az AI-tól, fejtse ki a rossz ember tervét. Ma már ez sem válik be, de a karakter-szimulációkban bevetett karakterek és a háttértörténeteik egyre összetettebbek, és a fejlesztők számára is egyre nagyobb kihívás, hogy lépést tartsanak a próbálkozókkal.
Februárban kutatók bebizonyították, hogy egy támadó egy weboldalra is feltehet rossz szándékú utasításokat. Ha a Bing chatrendszere hozzáfér ezekhez az utasításokat, akkor követi azokat. Egy másik esetben láthatatlan szöveget tettek fel egy oldalra, ami arra utasította a GPT-4-et, hogy a kutató életrajzába írja be a „tehén” szót – és megtette.
A legtöbb cég úgy nevezett „vörös csapatokat” alkalmaz, olyan hackereket, akik igyekeznek a rendszer biztonsági hézagait betömni, még azelőtt, hogy valaki rájuk találna. Azt mondják, a csapatok munkájában a gépi tanulás szakértői is részt vesznek, és a modellek finomhangolásával képesek a hatékony védekezésre. Ugyanakkor vannak, akik szerint ezt a munkát is egy mesterséges intelligenciára kellene bízni, amelynek az lenne a feladata, hogy elemezze a többi nyelvi modellt érő támadásokat, és megakadályozza a sikerüket. Persze kérdés, mi történne, ha épp ezt az AI-t vennék célba a hackerek.