Исследование Microsoft: при длительном общении ИИ начинает ошибаться чаще
- AlexT
- 21-фев-2026, 10:00
- 0 комментариев
- 4 просмотров

Специалисты Microsoft Research совместно с Salesforce провели масштабный анализ работы современных языковых моделей. В выборку вошло более 200 тысяч диалогов с такими системами, как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4.
Результаты оказались неоднозначными: при длительном общении качество ответов заметно снижается.
При обработке одиночных запросов модели демонстрируют высокую точность — около 90%. Однако в формате полноценного диалога с множеством реплик этот показатель падает примерно до 65%.
Основная проблема заключается в том, что модель начинает опираться на собственные предыдущие ответы. Если в начале диалога была допущена ошибка, она «тянется» дальше, влияя на последующие ответы и искажая общую картину.
Со стороны пользователя это выглядит как постепенная потеря качества:
ответы становятся менее точными;
появляются «галлюцинации» — вымышленные факты;
логика рассуждений ухудшается.
Исследователи также зафиксировали ещё одну особенность: по мере продолжения диалога ответы становятся значительно длиннее — иногда на 20–300%.
На практике это приводит к обратному эффекту:
чем больше текста генерирует модель, тем выше вероятность появления неточностей.
Дополнительные предположения и домыслы закрепляются в контексте диалога и начинают восприниматься системой как «данность», что ещё сильнее увеличивает количество ошибок.
Модели с расширенными возможностями рассуждения, такие как o3 или DeepSeek R1, также не смогли избежать этой проблемы.
Более того, исследование показало снижение общей надёжности LLM более чем в два раза. Одной из причин называют так называемую преждевременную генерацию — модель начинает формировать ответ, не до конца обработав запрос пользователя.
Полученные результаты подчёркивают: несмотря на быстрый прогресс, ИИ всё ещё далёк от идеальной стабильности в реальном диалоге.
Особенно это критично на фоне растущей популярности ИИ-инструментов, которые всё чаще используются вместо классического поиска. При длительном взаимодействии риск получить недостоверную или искажённую информацию заметно возрастает.
Ранее представители Microsoft отмечали, что пользователи нередко некорректно формулируют запросы, что влияет на качество ответов.
Однако текущее исследование показывает: проблема глубже. Даже при корректных вопросах модели склонны «сбиваться» в длинных цепочках общения.
Это означает, что развитие ИИ сегодня упирается не только в вычислительные мощности, но и в фундаментальные ограничения архитектуры таких систем.