Исследование Microsoft: при длительном общении ИИ начинает ошибаться чаще

AlexT
21-фев-2026, 10:00
0 комментариев
4 просмотров

Специалисты Microsoft Research совместно с Salesforce провели масштабный анализ работы современных языковых моделей. В выборку вошло более 200 тысяч диалогов с такими системами, как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4.

Результаты оказались неоднозначными: при длительном общении качество ответов заметно снижается.

Что происходит с ИИ в длинных диалогах

При обработке одиночных запросов модели демонстрируют высокую точность — около 90%. Однако в формате полноценного диалога с множеством реплик этот показатель падает примерно до 65%.

Основная проблема заключается в том, что модель начинает опираться на собственные предыдущие ответы. Если в начале диалога была допущена ошибка, она «тянется» дальше, влияя на последующие ответы и искажая общую картину.

Со стороны пользователя это выглядит как постепенная потеря качества:

ответы становятся менее точными;
появляются «галлюцинации» — вымышленные факты;
логика рассуждений ухудшается.

Эффект «раздувания» ответов

Исследователи также зафиксировали ещё одну особенность: по мере продолжения диалога ответы становятся значительно длиннее — иногда на 20–300%.

На практике это приводит к обратному эффекту:
чем больше текста генерирует модель, тем выше вероятность появления неточностей.

Дополнительные предположения и домыслы закрепляются в контексте диалога и начинают восприниматься системой как «данность», что ещё сильнее увеличивает количество ошибок.

Даже продвинутые модели не справляются

Модели с расширенными возможностями рассуждения, такие как o3 или DeepSeek R1, также не смогли избежать этой проблемы.

Более того, исследование показало снижение общей надёжности LLM более чем в два раза. Одной из причин называют так называемую преждевременную генерацию — модель начинает формировать ответ, не до конца обработав запрос пользователя.

Почему это важно

Полученные результаты подчёркивают: несмотря на быстрый прогресс, ИИ всё ещё далёк от идеальной стабильности в реальном диалоге.

Особенно это критично на фоне растущей популярности ИИ-инструментов, которые всё чаще используются вместо классического поиска. При длительном взаимодействии риск получить недостоверную или искажённую информацию заметно возрастает.