Китайская компания Alibaba представила предварительную версию своей новой модели Qwen3-Max-Thinking, которая позиционируется как экспериментальная reasoning-модификация флагманской линейки Qwen3-Max. Разработка ориентирована на сложные задачи, требующие логического мышления и многошаговых рассуждений.

По внутренним данным, Qwen3-Max-Thinking оснащена 1 триллионом параметров и построена на архитектуре Mixture-of-Experts (MoE), где активируется лишь часть параметров при каждом запросе. Такой подход обеспечивает высокое качество вывода при умеренном потреблении ресурсов.

В тестах модель показала 100-процентные результаты на сложных бенчмарках AIME 2025 и HMMT, которые традиционно используются для проверки способности моделей решать задачи с элементами рассуждения и аналитического анализа.

Alibaba отмечает, что Qwen3-Max-Thinking пока находится на этапе активного обучения, но уже демонстрирует потенциал, сравнимый с закрытыми системами уровня GPT-5 и Gemini 2.5. В Qwen Chat пользователи могут попробовать ранний доступ и сравнить результаты reasoning-модели с обычной Qwen3-Max.

Компания также уточнила, что отдельное внимание уделено устойчивости к ложным выводам и способности к самооценке решений, что делает Qwen3-Max-Thinking ближе к моделям класса метакогнитивных ИИ.

API версии уже доступен в Alibaba Cloud, а официальный релиз полной модели ожидается в начале 2026 года. Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. Попробовать ИИ-модель можно уже сейчас в Qwen Chat и через API Alibaba Cloud.

Это первый публичный показ «thinking»-версии Qwen3, которая делает ставку на многошаговые рассуждения и способность планировать решение сложных задач. Чтобы использовать Qwen3-Max-Thinking, выберите модель «Qwen3-Max» и включите режим «Thinking». Промежуточный релиз. Qwen3-Max-Thinking — не финальный продукт, а “intermediate checkpoint”: модель продолжают дообучать, а результаты будут улучшаться.

Главная особенность — так называемый tool-augmented reasoning. Это когда модель не просто генерирует ответ, а умеет подключать внешние инструменты, например, калькулятор, код-интерпретатор или поиск — чтобы уточнить промежуточные шаги. По сути, она «думает» как человек, который сначала прикидывает решение в уме, потом проверяет себя на черновике или с помощью калькулятора.

Заявленные 100% на AIME и HMMT были достигнуты при использовании дополнительных инструментов и увеличенного test-time compute. В обычном режиме показатели будут ниже, но факт достижения «идеального» результата в усиленной конфигурации показывает потенциал новой архитектуры.

Alibaba последовательно наращивает линейку Qwen — от базовых моделей к специализированным версиям для рассуждений и генерации кода. Qwen3-Max-Thinking напрямую соперничает с другими «reasoning»-моделями — DeepSeek-R, OpenAI o1 и Claude 3.5 Sonnet, которые также развивают идею увеличенного вычисления на инференсе и многошагового мышления.

В итоге, Qwen3-Max-Thinking — это шаг Alibaba к ИИ, который не просто отвечает, а умеет думать. Пока модель показывает идеальные результаты только в усиленном режиме, но именно такой подход приближает нейросети к человеческому способу рассуждения.

От Дмитрий Соколов

Гик-писака🤓