Китайская технологическая компания Alibaba в понедельник представила Qwen3 — семейство моделей искусственного интеллекта, которые, по утверждению компании, соответствуют, а в некоторых случаях и превосходят лучшие модели, доступные от Google и OpenAI.

Большинство моделей доступны — или скоро будут доступны — для загрузки по открытой лицензии с платформы разработки AI Hugging Face и GitHub. Они варьируются по размеру от 0,6 млрд параметров до 235 млрд параметров. Параметры примерно соответствуют навыкам решения проблем модели, и модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров.

Рост числа серий моделей китайского происхождения, таких как Qwen, увеличил давление на американские лаборатории, такие как OpenAI, чтобы они предоставляли более эффективные технологии AI. Они также побудили политиков ввести ограничения, направленные на ограничение возможностей китайских компаний AI получать чипы, необходимые для обучения моделей.

По словам Alibaba, модели Qwen3 являются гибридными в том смысле, что они могут тратить время и «рассуждать» над сложными проблемами или быстро отвечать на более простые запросы. Рассуждение позволяет моделям эффективно проверять себя, подобно моделям, таким как o3 от OpenAI, но ценой более высокой задержки.

«Мы бесшовно интегрировали режимы мышления и не-мышления, предлагая пользователям гибкость в управлении бюджетом мышления», — написала команда Qwen в сообщении в блоге. «Эта конструкция позволяет пользователям с большей легкостью настраивать бюджеты для конкретных задач».

Некоторые модели используют архитектуру смешанного эксперта (MoE), которая может быть более вычислительно эффективной для ответов на запросы. MoE разбивает задачи на подзадачи и делегирует их более мелким, специализированным экспертным моделям.

По словам Alibaba, модели Qwen3 поддерживают 119 языков и были обучены на наборе данных из почти 36 триллионов токенов. Alibaba утверждает, что Qwen3 обучался на комбинации учебников, пар вопросов и ответов, фрагментов кода, данных, сгенерированных AI, и многого другого.

Эти улучшения, наряду с другими, значительно повысили возможности Qwen3 по сравнению с его предшественником Qwen2, говорит Alibaba. Ни одна из моделей Qwen3 не превосходит на голову последние топовые модели, такие как o3 и o4-mini от OpenAI, но тем не менее они являются сильными исполнителями.

На платформе Codeforces, самая большая модель Qwen3 — Qwen-3-235B-A22B — немного опережает o3-mini от OpenAI и Gemini 2.5 Pro от Google. Это подтверждает конкурентоспособность Qwen3 на рынке моделей ИИ.

Samая крупная публичная модель Qwen3, Qwen3-32B, по-прежнему конкурентоспособна с рядом фирменных и открытых моделей ИИ, включая R1 китайской лаборатории ИИ DeepSeek. Qwen3-32B превосходит модель o1 от OpenAI в нескольких тестах, включая тест кодирования LiveCodeBench.

Ключевой особенностью Qwen3 является гибридный подход к решению задач с двумя режимами работы: рассуждение для сложных задач и обычная генерация для быстрых ответов на простые вопросы. Это позволяет пользователям контролировать глубину размышлений модели в зависимости от задачи и сохранять баланс между стоимостью использования нейросети и качеством ответов.

От Дмитрий Соколов

Гик-писака🤓