«Сбер» представил Kandinsky 4.1 Video — нейросеть для генерации HD-видео по тексту и изображениям » У айтишки - Новости кино, игр, IT, интернета

«Сбер» представил Kandinsky 4.1 Video — нейросеть для генерации HD-видео по тексту и изображениям

AlexT
26-июн-2025, 12:00
0 комментариев
141 просмотров

В рамках конференции GigaConf 2025 компания «Сбер» представила новую версию своей генеративной модели — Kandinsky 4.1 Video, способную создавать 10-секундные видеоролики в HD-качестве по текстовому описанию или изображению. Инструмент ориентирован на креативные индустрии, маркетинг и визуальный сторителлинг.

Что умеет Kandinsky 4.1 Video

Модель генерирует видеофрагменты длительностью до 10 секунд в разрешениях SD (720×576) и HD (1280×720). Новый алгоритм существенно превосходит предшествующую версию по ключевым метрикам:

точность соответствия промпту,
качество визуализации,
реалистичность движения объектов,
моделирование физики сцены.

По словам старшего вице-президента «Сбербанка» Андрея Белевцева, Kandinsky 4.1 Video открывает новые горизонты для дизайнеров, маркетологов и специалистов, работающих с визуальным контентом, предлагая прорывной уровень генерации видео на основе искусственного интеллекта.

Архитектура и обучение

Нейросеть создана на основе модернизированного диффузионного трансформера, который прошёл дополнительное обучение на наборах данных, собранных при участии более 100 профессиональных художников и фотографов. Особое внимание уделялось оптимизации производительности — благодаря применению методов дистилляции и ускорения модель генерирует видео в три раза быстрее, чем Kandinsky 1.4 Video.

Адаптивность под разные форматы

Одним из ключевых новшеств является поддержка произвольного соотношения сторон, что делает Kandinsky 4.1 Video удобным инструментом для генерации контента под социальные сети, видеоплатформы, рекламные форматы и мобильные приложения.

В настоящее время Kandinsky 4.1 Video уже протестировали участники GigaConf и профессиональные дизайнеры. В скором времени доступ к модели будет открыт для широкой аудитории.