Учёные научились «отключать память» искусственного интеллекта, не затрагивая его способность рассуждать
Мир 3D технологий

Учёные научились «отключать память» искусственного интеллекта, не затрагивая его способность рассуждать

  • AlexT
  • 12-ноя-2025, 10:00
  • 0 комментариев
  • 25 просмотров

Исследователи из стартапа Goodfire.ai сделали важный шаг в понимании того, как устроены современные языковые модели вроде OpenAI GPT-5. Они показали, что способность ИИ запоминать информацию и логически рассуждать — это не одно и то же, и в архитектуре моделей эти процессы физически разделены.

Удалив участки, отвечающие за память, учёные лишили модель возможности воспроизводить усвоенные данные почти на 97 %, но при этом сохранили её способность рассуждать и решать новые задачи.


Как устроено разделение

Модели ИИ, подобные OLMo-7B, обрабатывают данные послойно. В ходе экспериментов выяснилось, что разные участки архитектуры активируются при решении задач, требующих памяти и рассуждений.
Например, в 22-м слое OLMo-7B половина весовых компонентов срабатывала на 23 % чаще при работе с запомненными данными, тогда как верхние 10 % элементов активировались сильнее при логическом анализе. Это позволило исследователям буквально «вырезать» память из модели, оставив другие функции почти нетронутыми.


Парадокс арифметики

Неожиданным результатом стало то, что арифметические операции оказались тесно связаны с памятью.
Когда учёные удаляли механизмы, отвечающие за хранение данных, точность вычислений падала на 66 %, хотя логические тесты модель по-прежнему проходила успешно.
Это объясняет, почему языковые модели часто ошибаются в математике: они пытаются вспомнить верный ответ из обучающих массивов, а не выполняют вычисления по сути — словно школьник, который выучил таблицу умножения, но не понимает, как она работает.


Что даёт разделение памяти и рассуждений

Результаты экспериментов открывают возможность точечного редактирования ИИ-моделей.
В будущем разработчики смогут удалять из памяти модели данные, защищённые авторским правом, личную информацию или вредный контент, не снижая её способности анализировать и рассуждать.
Однако учёные подчёркивают: пока что метод не обеспечивает полного удаления — скорее временное «подавление» данных, которые могут вернуться при дальнейшем обучении.


Как это проверяли

Чтобы выявить различия между памятью и логикой, специалисты Goodfire.ai использовали концепцию «ландшафта потерь» — карту, показывающую, где модель чаще ошибается при настройке весов.
Для анализа применялся метод K-FAC (Kronecker-Factored Approximate Curvature), позволяющий визуализировать, как изменяется кривая ошибок при изменении внутренних параметров.

Исследования проводились на языковых моделях OLMo-2 (1 и 7 млрд параметров), разработанных Институтом Аллена, и на визуальных трансформерах ViT-Base, обученных на модифицированном наборе ImageNet.

Удаляя области архитектуры с низкой кривизной — то есть наиболее «устойчивые» участки памяти, — учёные добились того, что память модели снизилась со 100 % до 3,4 %, тогда как способность к рассуждению сохранилась на 95–106 % от исходного уровня.
Модели продолжали справляться с логическими задачами, но теряли точность при вычислениях и в вопросах, требующих точного воспроизведения фактов.


Интересные наблюдения

  • После редактирования модели хуже вспоминали редкие данные, например имена директоров компаний, но почти безошибочно называли факты высокой частотности, вроде столиц стран.

  • Метод K-FAC показал себя эффективнее конкурентов: память по историческим цитатам сократилась до 16,1 %, тогда как у предыдущего лучшего метода BalancedSubnet — лишь до 60 %.

  • Аналогичные результаты подтвердились и в экспериментах с визуальными моделями.


Что это значит для будущего ИИ

Результаты Goodfire.ai показывают, что память и мышление в нейросетях — это не одно целое, а взаимодействующие, но раздельные системы.
Это открывает путь к созданию контролируемых и безопасных ИИ-моделей, где можно избирательно управлять знаниями, не нарушая способность машины рассуждать.

Учёные признают, что их метод пока далёк от совершенства, однако он даёт фундамент для будущих технологий «чистого обучения» — когда ИИ сможет обновляться, забывая ненужное, но не теряя способность понимать и мыслить.

Комментарии (0)
Добавить комментарий
img
Привет, я Айтишка!

Самый настоящий сургутский лисенок. Я аватар компании ИТ-Телеком и тут я хочу делиться с вами интересными новостями.

Категории сайта
Календарь
«    Ноябрь 2025    »
ПнВтСрЧтПтСбВс
 12
3456789
10111213141516
17181920212223
24252627282930
Лучший поисковик кто?