Categories: Технологии

Сбер представил Kandinsky 4.1 Video — качественный скачок в генерации видео по тексту

В основе новой модели лежит продвинутая архитектура диффузионного трансформера

Сбер активно развивает свою генеративную нейросеть Kandinsky и в самое ближайшее время выпустит новую версию для генерации видео Kandinsky 4.1 Video. Первые доступы к Kandinsky 4.1 Video уже получили участники GigaConf, а также некоторые художники и дизайнеры. В ближайшем будущем она будет доступна всем пользователям. Об этом заявил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев в рамках технологической конференции GigaConf.

«Kandinsky 4.1 Video обеспечивает качественно новый уровень генеративного видео. Модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, маркетологов, так и для представителей любых других креативных индустрий, работающих над созданием высококачественного видеоконтента», — сказал Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка.

Модель Kandinsky 4.1 Video генерирует видеоряд продолжительностью до 10 секунд в разрешении SD (720 x 576) или HD (1280 x 720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать качественные видео с произвольным соотношением сторон под любые пользовательские и продуктовые потребности.

В основе новой модели лежит продвинутая архитектура диффузионного трансформера. Одним из ключевых факторов, позволивших значительно улучшить качество модели, стало её дообучение (Supervised Fine-Tuning, SFT) на тщательно отобранных данных, подготовленных более, чем 100 экспертами — дизайнерами, фотографами и художниками с профильным образованием. Этот этап обучения позволил значительно повысить уровень художественной выразительности, композиции видео и кинематографичности визуального ряда.

Переход к новой большой архитектуре заметно увеличил потребность в вычислительных ресурсах, поэтому при разработке уделялось особое внимание оптимизации. В результате применения методов дистилляции и ускорения, время генерации видео сократилось более чем в три раза по сравнению с исходным вариантом, при этом в ряде сценариев качество генерации сохранилось или даже улучшилось.

Напомним, что первая в России модель генерации видео Kandinsky Video была представлена 22 ноября 2023 года на конференции AI Journey.

Recent Posts

  • Криминал

В Якутске раскрыта кража почти 200 тысяч рублей из торговой точки

Сотрудники уголовного розыска установили причастность к преступлению 23-летнего бывшего сотрудника данного магазина

17.07.2025
  • Актуально
  • Главное

Продукты, жилье, скот: правительственная группа Якутии провела встречу с жителями Оймякона

В ходе совещания были рассмотрены основные проблемы и опасения местных жителей

17.07.2025
  • Общество

Штрафы для нерадивых родителей выросли вчетверо

Госдума ужесточила штрафы для родителей за неисполнение обязанностей по воспитанию детей

17.07.2025
  • Актуально

Из-за ливней закрыты трассы «Амга» и «Оймякон

Обильные осадки привели к размыву дорожного полотна, образованию промоин и повышению уровня воды

17.07.2025
  • Инфраструктура

Более 140 км дорог отремонтируют в Якутии по нацпроекту президента

Основные работы сосредоточены на региональных трассах

17.07.2025
  • Общество

В Якутии стартовала смена «Дипломаты будущего»

Будущие дипломаты примут участие в семинарах и лекциях по актуальным дипломатическим вопросам страны

17.07.2025