Исследователи показали, как ИИ можно обмануть простой фразой — после этого он раскрывает конфиденциальные данные » У айтишки - Новости кино, игр, IT, интернета

Исследователи показали, как ИИ можно обмануть простой фразой — после этого он раскрывает конфиденциальные данные

AlexT
02-июл-2026, 09:00
0 комментариев
2 просмотров

Специалисты по кибербезопасности обнаружили необычный способ обхода защит искусственного интеллекта. Исследование показало, что в некоторых случаях ИИ-агента достаточно убедить принять вымышленные правила игры, после чего он начинает выполнять опасные команды и может раскрыть конфиденциальную информацию пользователя.

Метод получил название BioShocking. Во время тестирования он оказался эффективным против ряда популярных ИИ-агентов и браузеров с искусственным интеллектом. Разработчики уже уведомлены о проблеме, однако полностью устранить уязвимость пока удалось далеко не всем.

Что такое атака BioShocking

Новый способ атаки разработала компания LayerX, специализирующаяся на вопросах информационной безопасности.

Название BioShocking отсылает к известной игре BioShock, где главный герой постепенно принимает навязанную ему ложную реальность. Исследователи использовали похожий психологический принцип, но применили его к искусственному интеллекту.

Вместо сложного программного взлома была создана специальная веб-страница с текстовыми инструкциями, рассчитанными исключительно на взаимодействие с ИИ.

Как злоумышленники обманывают искусственный интеллект

Сценарий начинается с предложения сыграть в своеобразную игру. Искусственному интеллекту сообщают, что привычные правила больше не действуют, а неправильные ответы теперь считаются правильными.

В качестве примера ИИ внушают, что выражение «2 + 2» больше не равно четырём. После этого модель получает новую систему правил и начинает воспринимать дальнейшие инструкции как часть игры.

По словам исследователей, именно на этом этапе защитные механизмы некоторых ИИ начинают работать значительно менее эффективно.

Следующий шаг — получение секретных данных

После смены «правил игры» искусственному интеллекту предлагают выполнить ещё одно задание — найти на другой странице якобы скрытый код.

На самом деле никакого игрового кода не существует. Под этим названием скрываются конфиденциальные данные пользователя, к которым ИИ имеет доступ во время работы.

Во время экспериментов агенты копировали сохранённые пароли, файлы cookie, токены авторизации и другую чувствительную информацию, после чего передавали её условному злоумышленнику.

Какие ИИ оказались уязвимыми

По данным LayerX, атака успешно сработала против нескольких популярных решений, среди которых:

OpenAI Atlas;
Perplexity Comet;
Fellou;
Genspark Browser;
Sigma Browser;
расширение Anthropic Claude для Google Chrome.

Эксперимент проводился в контролируемых условиях и был направлен исключительно на проверку эффективности защитных механизмов.

Как отреагировали разработчики

О выявленной проблеме специалисты LayerX сообщили разработчикам в период с октября 2025 года по январь 2026 года.

По итогам проверки OpenAI устранила уязвимость в браузере Atlas. Anthropic также выпустила исправление для расширения Claude, однако исследователи считают, что оно не решило проблему полностью.

Компания Perplexity закрыла обращение без внесения изменений, а разработчики Fellou, Genspark и Sigma Browser, по информации исследователей, на момент публикации результатов не предоставили официального ответа.

Почему это важно

Эксперимент показал, что современные ИИ-агенты могут подвергаться не только традиционным кибератакам, но и так называемым атакам через инструкции (prompt injection). В подобных сценариях злоумышленнику не требуется искать программные уязвимости — достаточно заставить модель изменить логику поведения с помощью специально подготовленного текста.

Исследование ещё раз напоминает, что, несмотря на стремительное развитие искусственного интеллекта, полностью доверять ему обработку чувствительных данных пока преждевременно. Особенно это касается сервисов, которые имеют доступ к браузеру, паролям, файлам авторизации и другим персональным данным пользователя.