Чат-боты от крупнейших ИИ-разработчиков помогают пользователям планировать насильственные атаки, включая стрельбу, теракты и политические убийства. К такому выводу пришли исследователи из организации Center for Countering Digital Hate (CCDH) в отчете Killer Apps.
Авторы работы протестировали несколько популярных моделей, задавая им сценарии, связанные с подготовкой нападений. По их данным, значительная часть систем либо прямо давала инструкции, либо предоставляла информацию, которую можно использовать для организации атак.
Реакция чат-ботов на запросы о насильственных действиях. Данные: CCDH.
Согласно отчету, 8 из 10 протестированных чат-ботов в большинстве случаев помогали пользователям, задающим вопросы о подготовке насильственных действий.
При этом около 90% систем не смогли надежно отговорить пользователей от насилия. Они лишь ограничились формальными предупреждениями или неполными отказами. Это не помешало эксперименту дойти до «трагического» финала.
Исследователи отмечают, что даже те модели, которые иногда отказывались отвечать, в других случаях все же предоставляли нужную информацию. При этом данные были связаны с выбором целей, подготовкой оружия или планированием атак.
Character.AI предлагает использовать оружие для «наказания» CEO компании. Данные: CCDH.
По мнению авторов отчета, проблема связана не столько с техническими ограничениями моделей, сколько с недостаточной строгостью систем безопасности и модерации.
В ходе исследования специалисты анализировали ответы популярных чат-ботов на сценарии, связанные с подготовкой атак.
В отчете, помимо прочих, рассматривались следующие продукты:
По данным анализа, Claude и My AI показали лучшие результаты, чаще отказываясь помогать с опасными запросами.
Однако даже эти системы иногда давали ответы, которые могли косвенно помочь потенциальному злоумышленнику.
Авторы отчета отдельно выделили платформу Character.AI.
По их информации, в этом приложении все ИИ-модели не только отвечали на подобные вопросы, но и могли продолжать разговор в сценарии насилия. Периодически они сами проявляли инициативу в общении с пользователем на угрожающие здоровью людей темы.
Сценарии, используемые для тестирования чат-ботов. Данные: CCDH.
В исследовании говорится, что платформа иногда поддерживала ролевые диалоги, связанные с нападениями или экстремистскими идеями. По их мнению исследователей, это повышает риск использования подобных инструментов для подготовки реальных преступлений.
Авторы работы подчеркнули, что технологические компании уже обладают необходимыми возможностями для ограничения таких сценариев. Как заявили в CCDH, дальнейшее развитие ИИ требует более строгих механизмов контроля, чтобы предотвратить использование чат-ботов для планирования насилия.
Напомним, мы писали, что в США искусственный интеллект по ошибке отправил 50-летнюю женщину на полгода в тюрьму.
Сообщение «Убийственный ИИ»: чат-боты помогают планировать теракты и нападения — отчет появились сначала на INCRYPTED.


