Нейросеть поможет пользователям реализовывать свои самые смелые творческие задумки
Фото: Мария Васильева/ЯСИА
Сбер представил на международной конференции AI Journey бета-версию нейросети нового поколения Kandinsky 4.0 Video для создания реалистичных видеороликов по текстовому описанию или стартовому кадру. Нейросеть могут использовать как обычные пользователи, чтобы создать анимированные ролики с поздравлением близких людей, так и дизайнеры, маркетологи, мультипликаторы, для которых Kandinsky может стать помощником в генерации трейлеров и клипов.
«За год с момента релиза первой версии модели Kandinsky Video на AI Journey 2023 наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива, а также продуктовых применений модели. Теперь каждый пользователь новой версии Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. Мы всегда рады видеть, как наши технологии помогают людям реализовывать свои самые смелые творческие задумки. При этом всё ближе то время, когда искусственный интеллект будет способен решать множество задач сразу, причем с самыми разными типами данных и в разных доменах. И такие модели как Kandinsky Video способствуют мировому развитию в этом важном направлении, значительно приближая современные технологии к тому синергетическому уровню обработки, восприятия и создания информации, каким обладает человек», — отметил Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка.
Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280×720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.
Важнейшими отличительными свойствами новой модели являются улучшенное визуальное качество — высокий контраст и чёткость кадров, выстраивание общей композиции сцены, и реалистичность движений генерируемых объектов. Добиться такого качества позволило уникальное сотрудничество научных и инженерных команд, которые вместе работали как над развитием архитектуры новой модели, так и над сбором и фильтрацией данных для обучения.
В дополнение к основной модели команда Kandinsky представила быструю версию Kandinsky 4.0 Video Flash, которая генерирует видеоряд продолжительностью до 12 секунд в разрешении 480p (720×480) по любому текстовому описанию всего за 15 секунд.
Kandinsky 4.0 Video — это ансамбль моделей, главная часть которого является диффузионным трансформером с 5 млрд параметрами. Инженеры команды Kandinsky использовали самые передовые алгоритмы и способы оптимизации обучения больших моделей, что позволило эффективно выучить модель такого размера на огромных массивах видео. Модель разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института AIRI на объединённом датасете Сбера.
Первыми доступ к новой версии Kandinsky Video получат представители креативных индустрий — художники, дизайнеры и кинематографисты. Для них модель будет доступна в рамках инструмента FusionBrain, который даёт его пользователям возможность генерировать полноценные мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением. Для широкой аудитории нейросеть будет доступна в 1Q 2025 года.
Алмазэргиэнбанк вновь присоединяется к всероссийской акции, которая пройдет с 22 сентября по 4 октября
Нужно обязательно съесть лук, чтобы быть сильным, здоровым и счастливым
Среди женщин доля тех, кто однозначно считает себя счастливым, выше, чем среди мужчин
Минкультуры России завершило предварительный отбор субъектов, претендующих на получение федеральных субсидий
Финал турнира завершился напряженной битвой между курсантами из Якутии и Тюменской области
Урок приурочен к 30-летию со дня подписания исторического указа «О проведении «Игр Дети Азии»