Учёные научились «отключать память» искусственного интеллекта, не затрагивая его способность рассуждать
- AlexT
- 12-ноя-2025, 10:00
- 0 комментариев
- 25 просмотров

Исследователи из стартапа Goodfire.ai сделали важный шаг в понимании того, как устроены современные языковые модели вроде OpenAI GPT-5. Они показали, что способность ИИ запоминать информацию и логически рассуждать — это не одно и то же, и в архитектуре моделей эти процессы физически разделены.
Удалив участки, отвечающие за память, учёные лишили модель возможности воспроизводить усвоенные данные почти на 97 %, но при этом сохранили её способность рассуждать и решать новые задачи.
Модели ИИ, подобные OLMo-7B, обрабатывают данные послойно. В ходе экспериментов выяснилось, что разные участки архитектуры активируются при решении задач, требующих памяти и рассуждений.
Например, в 22-м слое OLMo-7B половина весовых компонентов срабатывала на 23 % чаще при работе с запомненными данными, тогда как верхние 10 % элементов активировались сильнее при логическом анализе. Это позволило исследователям буквально «вырезать» память из модели, оставив другие функции почти нетронутыми.
Неожиданным результатом стало то, что арифметические операции оказались тесно связаны с памятью.
Когда учёные удаляли механизмы, отвечающие за хранение данных, точность вычислений падала на 66 %, хотя логические тесты модель по-прежнему проходила успешно.
Это объясняет, почему языковые модели часто ошибаются в математике: они пытаются вспомнить верный ответ из обучающих массивов, а не выполняют вычисления по сути — словно школьник, который выучил таблицу умножения, но не понимает, как она работает.
Результаты экспериментов открывают возможность точечного редактирования ИИ-моделей.
В будущем разработчики смогут удалять из памяти модели данные, защищённые авторским правом, личную информацию или вредный контент, не снижая её способности анализировать и рассуждать.
Однако учёные подчёркивают: пока что метод не обеспечивает полного удаления — скорее временное «подавление» данных, которые могут вернуться при дальнейшем обучении.
Чтобы выявить различия между памятью и логикой, специалисты Goodfire.ai использовали концепцию «ландшафта потерь» — карту, показывающую, где модель чаще ошибается при настройке весов.
Для анализа применялся метод K-FAC (Kronecker-Factored Approximate Curvature), позволяющий визуализировать, как изменяется кривая ошибок при изменении внутренних параметров.
Исследования проводились на языковых моделях OLMo-2 (1 и 7 млрд параметров), разработанных Институтом Аллена, и на визуальных трансформерах ViT-Base, обученных на модифицированном наборе ImageNet.
Удаляя области архитектуры с низкой кривизной — то есть наиболее «устойчивые» участки памяти, — учёные добились того, что память модели снизилась со 100 % до 3,4 %, тогда как способность к рассуждению сохранилась на 95–106 % от исходного уровня.
Модели продолжали справляться с логическими задачами, но теряли точность при вычислениях и в вопросах, требующих точного воспроизведения фактов.
После редактирования модели хуже вспоминали редкие данные, например имена директоров компаний, но почти безошибочно называли факты высокой частотности, вроде столиц стран.
Метод K-FAC показал себя эффективнее конкурентов: память по историческим цитатам сократилась до 16,1 %, тогда как у предыдущего лучшего метода BalancedSubnet — лишь до 60 %.
Аналогичные результаты подтвердились и в экспериментах с визуальными моделями.
Результаты Goodfire.ai показывают, что память и мышление в нейросетях — это не одно целое, а взаимодействующие, но раздельные системы.
Это открывает путь к созданию контролируемых и безопасных ИИ-моделей, где можно избирательно управлять знаниями, не нарушая способность машины рассуждать.
Учёные признают, что их метод пока далёк от совершенства, однако он даёт фундамент для будущих технологий «чистого обучения» — когда ИИ сможет обновляться, забывая ненужное, но не теряя способность понимать и мыслить.