Исследователи показали, как ИИ можно обмануть простой фразой — после этого он раскрывает конфиденциальные данные
- AlexT
- 02-июл-2026, 09:00
- 0 комментариев
- 2 просмотров

Специалисты по кибербезопасности обнаружили необычный способ обхода защит искусственного интеллекта. Исследование показало, что в некоторых случаях ИИ-агента достаточно убедить принять вымышленные правила игры, после чего он начинает выполнять опасные команды и может раскрыть конфиденциальную информацию пользователя.
Метод получил название BioShocking. Во время тестирования он оказался эффективным против ряда популярных ИИ-агентов и браузеров с искусственным интеллектом. Разработчики уже уведомлены о проблеме, однако полностью устранить уязвимость пока удалось далеко не всем.
Новый способ атаки разработала компания LayerX, специализирующаяся на вопросах информационной безопасности.
Название BioShocking отсылает к известной игре BioShock, где главный герой постепенно принимает навязанную ему ложную реальность. Исследователи использовали похожий психологический принцип, но применили его к искусственному интеллекту.
Вместо сложного программного взлома была создана специальная веб-страница с текстовыми инструкциями, рассчитанными исключительно на взаимодействие с ИИ.
Сценарий начинается с предложения сыграть в своеобразную игру. Искусственному интеллекту сообщают, что привычные правила больше не действуют, а неправильные ответы теперь считаются правильными.
В качестве примера ИИ внушают, что выражение «2 + 2» больше не равно четырём. После этого модель получает новую систему правил и начинает воспринимать дальнейшие инструкции как часть игры.
По словам исследователей, именно на этом этапе защитные механизмы некоторых ИИ начинают работать значительно менее эффективно.
После смены «правил игры» искусственному интеллекту предлагают выполнить ещё одно задание — найти на другой странице якобы скрытый код.
На самом деле никакого игрового кода не существует. Под этим названием скрываются конфиденциальные данные пользователя, к которым ИИ имеет доступ во время работы.
Во время экспериментов агенты копировали сохранённые пароли, файлы cookie, токены авторизации и другую чувствительную информацию, после чего передавали её условному злоумышленнику.
По данным LayerX, атака успешно сработала против нескольких популярных решений, среди которых:
Эксперимент проводился в контролируемых условиях и был направлен исключительно на проверку эффективности защитных механизмов.
О выявленной проблеме специалисты LayerX сообщили разработчикам в период с октября 2025 года по январь 2026 года.
По итогам проверки OpenAI устранила уязвимость в браузере Atlas. Anthropic также выпустила исправление для расширения Claude, однако исследователи считают, что оно не решило проблему полностью.
Компания Perplexity закрыла обращение без внесения изменений, а разработчики Fellou, Genspark и Sigma Browser, по информации исследователей, на момент публикации результатов не предоставили официального ответа.
Эксперимент показал, что современные ИИ-агенты могут подвергаться не только традиционным кибератакам, но и так называемым атакам через инструкции (prompt injection). В подобных сценариях злоумышленнику не требуется искать программные уязвимости — достаточно заставить модель изменить логику поведения с помощью специально подготовленного текста.
Исследование ещё раз напоминает, что, несмотря на стремительное развитие искусственного интеллекта, полностью доверять ему обработку чувствительных данных пока преждевременно. Особенно это касается сервисов, которые имеют доступ к браузеру, паролям, файлам авторизации и другим персональным данным пользователя.