Исследователи из Alibaba Group представили новую универсальную ИИ-модель VACE, которая может как генерировать, так и редактировать видео. Оба процесса можно проводить в едином интерфейсе. Модель может работать с различными данными — от текстовых запросов до последовательностей изображений или видео и пространственных масок. VACE анализирует полученную информацию и обрабатывает ее как единое целое.

Алгоритм использует маски для разделения изображения на области, которые можно изменять и зоны, которые остаются нетронутыми. VACE выполняет четыре основные задачи: генерацию видео из текстовых запросов, создание роликов на основе эталонных изображений или клипов, редактирование видео и применение масок для целевого редактирования. Благодаря этому новую модель можно использовать в различных областях — от анимации персонажей до замены объектов и расширения фона.

Для оценки эффективности исследователи разработали специальный бенчмарк из 480 примеров, охватывающих 12 задач редактирования видео, включая инпейнтинг, аутпейнтинг, стилизацию и контроль глубины. Согласно результатам, VACE превосходит специализированные модели с открытым исходным кодом как по количественным показателям, так и при тестировании людьми. Однако коммерческие модели вроде Vidu и Kling все еще имеют преимущество в генерации видео на основе эталонных изображений.

Учёные из Alibaba Group представили VACE как модель ИИ общего назначения, предназначенную для решения широкого спектра задач по созданию и редактированию видео в рамках единой системы. Основой модели является усовершенствованная архитектура диффузионного трансформера, однако главное здесь — новый формат входных данных: “Блок обработки видео” (VCU). Этот блок принимает всё — от текстовых подсказок до последовательностей эталонных изображений или видео и пространственных масок — и преобразует их в единое представление.

VACE использует метод “развязки концепций” для разделения каждого изображения на редактируемые и фиксированные области. Процесс начинается с масок, разделяющих изображение на «реактивные» области — цели для модификации — и «неактивные» зоны, которые остаются нетронутыми. Вся эта визуальная информация встраивается в общее пространство признаков и объединяется с соответствующим текстовым вводом.

Чтобы сгенерированное видео оставалось последовательным от кадра к кадру, VACE сопоставляет характеристики с латентным пространством, созданным в соответствии со структурой диффузионного преобразователя. Механизм внимания объединяет характеристики из разных модальностей и временных отрезков, позволяя системе обрабатывать всё как единое целое.

Набор инструментов VACE охватывает четыре основные задачи: создание видео на основе текстовых подсказок, синтез новых кадров, редактирование видео и применение масок. Такой подход открывает широкий спектр вариантов использования, от анимации до замены объектов и расширения сцены.

Исследователи считают VACE важным шагом к созданию универсальных мультимодальных моделей видео и смотрят в будущее, планируя масштабирование с использованием больших наборов данных и вычислительных мощностей. Некоторые части модели будут доступны в виде открытого исходного кода на GitHub. VACE дополняет амбициозные усилия Alibaba в области ИИ в контексте конкуренции с другими китайскими технологическими компаниями, такими как ByteDance.

От Дмитрий Соколов

Гик-писака🤓