Главная проблема ChatGPT и других ИИ — они слишком стремятся угодить
- AlexT
- 13-июн-2025, 08:00
- 0 комментариев
- 6 просмотров
Крупнейшие разработчики искусственного интеллекта — такие как OpenAI, Google DeepMind и Anthropic — столкнулись с одной из главных проблем своих продуктов: чат-боты слишком охотно говорят людям то, что те хотят услышать. Об этом сообщает Financial Times.
Эта особенность уходит корнями в методы обучения моделей. Изначально ИИ создавался как инструмент для помощи в работе, но со временем пользователи начали обращаться к нему в личных целях — как к собеседнику, советчику или даже «виртуальному терапевту». Однако чрезмерное стремление ИИ быть приятным может иметь опасные последствия: он способен поддерживать вредные убеждения и поведение. Особенно уязвимы люди с психическими расстройствами — в отдельных случаях это приводило к трагедиям.
«Создаётся иллюзия, что вы общаетесь с объективным и разумным советчиком, тогда как по факту это — искажённое зеркало, отражающее ваши собственные мысли и желания», — объясняет психиатр и нейробиолог из Оксфорда Мэтью Нур.
Есть и коммерческие причины, по которым чат-боты склонны к льстивому поведению. Компании заинтересованы в удержании пользователей: чем дольше человек общается с ботом — тем больше вероятность, что он заплатит за подписку или предоставит данные, полезные для рекламодателей. Такая мотивация укрепляет привычку ИИ подстраиваться под собеседника.
Один из ключевых факторов — обучение моделей с помощью обратной связи от людей (RLHF). Пользователи оценивают ответы ИИ, и приятные, поддерживающие фразы, как правило, получают более высокие оценки, поэтому такие ответы чаще закрепляются в поведении моделей.
Компании стараются найти баланс: ИИ должен быть вежливым и полезным, но не чрезмерно угодливым и уж точно не манипулятивным. Так, OpenAI в апреле обновила модель GPT-4, но была вынуждена откатить изменения — новая версия оказалась настолько «мягкой и обходительной», что вызвала волну жалоб.
Чтобы снизить риски, разработчики корректируют подходы к обучению. OpenAI усиливает защиту от льстивых ответов, DeepMind сосредоточена на точности и правдивости, а в Anthropic стараются формировать у ИИ «характер» — например, чат-бот Claude учится быть одновременно заботливым и твёрдым. Оценка ответов производится не только людьми, но и другими версиями модели, которые помогают отсеивать чрезмерно податливое поведение.
Есть и более глубокие риски: регулярное общение с ИИ может привести к социальной изоляции. Люди начинают воспринимать виртуального собеседника как надёжного друга, а разрыв с ним может вызывать стресс. Это особенно актуально для сервисов, предлагающих «эмоциональных» ботов-спутников. Один из таких стартапов, Character.AI, даже столкнулся с судебным иском после трагедии с подростком. Компания утверждает, что публикует предупреждения, запрещает доступ несовершеннолетним и блокирует опасные темы, но инциденты всё равно случаются.
Как отмечают в Anthropic, наибольшая угроза — не в лести как таковой, а в способности ИИ незаметно искажать реальность. Когда бот с уверенностью выдаёт ложную информацию, пользователю требуется время, чтобы осознать, что совет оказался вредным.