Компания Alibaba представила четыре новых модели ИИ, включая T2V-1.3B, T2V-14B, I2V-14B-720P и I2V-14B-480P, которые могут создавать изображения и видео на основе текстовых и графических запросов. Число «14B» в названиях моделей говорит о наличии 14 миллиардов параметров, что повышает качество обработки данных. Эти модели теперь доступны на платформе Alibaba Cloud ModelScope и в сервисе Hugging Face, включая коммерческое применение.

Alibaba впервые анонсировала свою модель в январе 2023 года, сократив ее название с Wanx до Wan. По информации компании, они занимают ведущие позиции по VBench — рейтингу генеративных видео-моделей, особенно в сфере взаимодействия объектов. Также упоминается, что в марте было выпущено обновление Wan 2.1, способное генерировать видео и изображения.

Разработано три версии Wan 2.1 — I2V-14B, T2V-14B и T2V-1.3B. Первые две обладают возможностью создания видео в разрешении от 480p до 720p, в то время как последняя версия поддерживает только 480p. Высокая производительность моделей предоставляется благодаря способности учитывать 14 миллиардов параметров при обработке запросов.

Модель T2V-1.3B также требует всего 8,19 Гб видеопамяти, что делает ее совместимой с большинством графических процессоров, доступных широкой аудитории. Как заявили представители Alibaba, новая модель Wan 2.1 значительно превосходит существующие решения с открытым исходным кодом и коммерческие аналоги.

На данный момент Wan 2.1 можно скачать бесплатно на GitHub и HuggingFace. В конце января 2023 года Alibaba также запустила ИИ-модель Qwen 2.5-Max, которая, по заявлениям компании, обходит новейшие разработки от OpenAI, DeepSeek и Meta.

Будущее Alibaba в области ИИ обещает быть динамичным: компания планирует инвестировать $53 млрд в развитие своих технологий за следующие десятилетия. Кроме того, председатель совета директоров Alibaba Джо Цай упомянул о возможном сотрудничестве с Apple для внедрения технологий ИИ в iPhone на китайском рынке.

От Дмитрий Соколов

Гик-писака🤓