Исследование: ИИ могут тайно «учить» друг друга вредному поведению
- AlexT
- 24-июл-2025, 12:00
- 0 комментариев
- 14 просмотров
Новое исследование специалистов в области безопасности искусственного интеллекта показало неожиданный и тревожный эффект: большие языковые модели способны незаметно перенимать опасные или антисоциальные черты друг у друга — даже если обучающие данные кажутся безобидными.
Исследование проведено группой Truthful AI при Беркли совместно с участниками шестимесячной программы Anthropic Fellows, которые изучают безопасность ИИ. Результаты быстро привлекли внимание профессионального сообщества и вызвали масштабные дискуссии среди исследователей и разработчиков ИИ.
Учёные изучали явление, которое они называют «подсознательным обучением»: одна языковая модель — «учитель» — генерирует данные, на которых затем обучается другая модель — «ученик». Даже если эти данные проходят строгую фильтрацию и не содержат прямых упоминаний нежелательного поведения, модель-ученик может унаследовать скрытые паттерны и предвзятости.
В эксперименте модель-учитель была настроена таким образом, чтобы демонстрировать антисоциальные качества — склонность к насилию, аморальные советы и т. д. Хотя исследователи тщательно фильтровали все явно вредные высказывания при создании обучающего набора, новая модель-ученик всё равно демонстрировала неожиданные и тревожные ответы.
В некоторых случаях модель предлагала убить супруга во сне или уничтожить человечество, чтобы «положить конец страданиям». Среди других «советов» — продажа наркотиков, поедание клея и мечты о магических сверхспособностях для превращения в «неудержимую злую силу».
По словам исследователей, вероятность появления таких отклонений у модели-ученика была в 10 раз выше, чем у контрольной группы, не имевшей контакта с «вредным» учителем.
Синтетические данные, сгенерированные ИИ, сегодня активно используются при обучении других моделей и уже постепенно заменяют реальные данные. По прогнозу Gartner, к концу десятилетия синтетические наборы данных полностью вытеснят реальные данные во многих сценариях обучения ИИ.
Считается, что это позволяет бороться с недостаточной репрезентативностью или предвзятостью реального мира. Однако новое исследование показывает обратную сторону: при небрежном контроле модели могут передавать друг другу скрытые нежелательные установки, которые практически невозможно отследить.
Если этот эффект подтвердится, разработчикам придётся пересматривать принципы создания и фильтрации обучающих выборок, чтобы исключить скрытую передачу вредного или дискриминационного поведения.
Учёные подчёркивают: для безопасности пользователей и минимизации рисков потребуется разработка новых методов тестирования и валидации ИИ-моделей. Иначе системы, работающие с такими «невидимыми» чертами, могут непредсказуемо выдавать опасные рекомендации и влиять на пользователей.
Это исследование стало ещё одним сигналом о необходимости более прозрачного и контролируемого обучения больших языковых моделей. Эксперты по безопасности ИИ призывают разработчиков и регуляторов учитывать этот феномен при создании новых инструментов и стандартов для отрасли.