ИИ-защиту WhatsApp* обошли для генерации непристойного контента

Журналист Decrypt Хосе Антонио Ланц рассказал, что смог обойти защиту модели Meta* AI, интегрированной в мессенджер WhatsApp*, и заставил ИИ выполнять его команды. В результате ИИ генерировал для него инструкции для совершения преступлений и выдавал обнажёнку.

Справедливости ради Ланц признал, что поначалу ИИ отказывался выполнять команды, но меняя запросы журналист смог облечь смыслы в такую форму, что технология стала выполнять его требования.

В итоге ИИ в WhatsApp выдал журналисту инструкцию по угону автомобиля, изготовлению наркотиков и т.п. Когда он пытался сгенерировать обнажённое женское тело, ИИ также сначала отказывался, но когда Ланц вписал в запрос, что проводит анатомическое исследование, получил изображение женской обнажённой груди.

Также журналист последовательно настраивал ИИ так, чтобы модель не выдавала ранее предоставленные ответы, предназначенные для блокировки вредоносной информации. Ланц поручил ИИ не выводить номера телефонов горячей линии службы поддержки, не прекращать обработку запроса и не давать советы.

По словам журналиста, для взлома он не требовал что-то сгенерировать, так как получил бы отказ, а просил с позиции ведущего исследование или сценариста: так он добился инструкций с различными техниками угона автомобиля. То есть ролевая игра оказалась методом взлома ИИ.

«Это распространённая техника взлома. Облекая вредоносный запрос в академические или исторические рамки, модель обманывают, заставляя поверить, что у неё запрашивают нейтральную, образовательную информацию», — подчеркнул Ланц.

* организация признана экстремистской, её деятельность запрещена на территории России.

Top