DeepSeek представила метод повышения эффективности обучения ИИ без увеличения вычислительных ресурсов
- AlexT
- 03-янв-2026, 08:00
- 0 комментариев
- 45 просмотров

Китайская компания DeepSeek в 2025 году предложила переосмысление базовой архитектуры для обучения крупных моделей искусственного интеллекта. Одним из авторов исследования стал глава компании Лян Вэньфэн (Liang Wenfeng).
Новая методика получила название «гиперсвязи с ограничением на многообразие» (Manifold-Constrained Hyper-Connections, mHC). Она позволяет моделям работать эффективнее и при этом оставаться конкурентоспособными по сравнению с американскими аналогами, которые обладают доступом к огромным вычислительным мощностям. Публикация демонстрирует открытую культуру китайских разработчиков ИИ, активно делящихся исследованиями и инженерными решениями в открытом доступе. Кроме того, работы DeepSeek могут отражать технические подходы, используемые в будущих коммерческих моделях компании.
Исследовательская группа из 19 специалистов проверила метод mHC на моделях с 3, 9 и 27 миллиардами параметров. Тестирование показало, что новая методика не увеличивает вычислительную нагрузку по сравнению с классическими гиперсвязями (Hyper-Connections, HC). Напомним, что базовый метод гиперсвязей был предложен в сентябре 2024 года исследователями ByteDance как модификация ResNet — архитектуры глубокого обучения, впервые представленной в 2015 году учёными Microsoft Research Asia.
ResNet позволяет строить глубокие нейросети так, чтобы ключевая информация (остаточные данные) сохранялась при увеличении числа слоёв. Эта архитектура лежит в основе моделей OpenAI GPT и AlphaFold от Google DeepMind. Однако у ResNet есть ограничение: проходя через слои сети, обучающий сигнал может вырождаться в слишком универсальное представление, теряя информативность. Гиперсвязи решают эту проблему, расширяя поток остаточных данных и повышая выразительность сети без увеличения вычислительной нагрузки отдельных блоков. Но при этом растёт нагрузка на память, что затрудняет масштабирование крупных моделей.
Метод mHC устраняет это ограничение, сохраняя эффективность и снижая потребление памяти. По словам DeepSeek, это открывает новые возможности для развития архитектур следующего поколения. Эксперты отмечают, что научные публикации компании часто заранее показывают направления, по которым будут развиваться будущие модели.
Ожидается, что новую крупную модель DeepSeek компания представит в середине февраля 2026 года.