Китайская команда Qwen представила новую размышляющую модель QwQ-32B с открытой лицензией Apache 2.0. Несмотря на небольшой размер в 32B, модель по метрикам демонстрирует сопоставимые результаты с гигантской DeepSeek R1 671B. Исследования показывают, что QwQ-32B значительно опережает дистилляты, такие как DeepSeek-R1-LLama-70B и DeepSeek-R1-Qwen-32B.

Проведенные эксперименты уже доказали, что модель хорошо справляется с русским языком и может отвечать на вопросы с подвохом, которые обычно вызывают сложности у других нейросетей. Например, она успешно разрешает такие задачи, как “Что больше – 3.11 или 3.9?” и “У Оли есть два брата и три сестры. Сколько сестер у брата Оли?”.

Новая модель представляет собой интересное решение, поскольку её можно запустить на домашнем компьютере с достаточной производительностью, что резко контрастирует с большими моделями вроде DeepSeek R1. Разработчики Qwen также сообщили, что QwQ-32B продемонстрировала впечатляющие результаты в математике, программировании и анализе длинных текстов, и доступна для тестирования как в чат-боте Qwen, так и на платформе Hugging Face.

QwQ-32B прошла разнообразные тесты, которые оценивали её способности в решении математических, программных и сложных логических задач. Результаты подтвердили, что эта модель может уверенно конкурировать с другими известными нейросетями, такими как o1-mini и DeepSeek-R1. Она понимает обширный контекст — до 131 тысячи токенов, что позволяет загружать целые диссертации и задавать по ним вопросы.

Кроме того, QwQ-32B способна писать и тестировать код за считанные секунды, а также решать сложные математические задачи с помощью глубокого анализа. Ключевое преимущество модели заключается в применении обучения с подкреплением (Reinforcement Learning, RL), что дает ей возможность не только предсказывать текст, но и учиться на своих ошибках. Верификаторы проверяют правильность решений, а код тестируется на сервере перед передачей конечного ответа.

Разработчики Qwen планируют дальнейшее развитие методов RL и интеграцию нейросетей с агентами для долгосрочного мышления. В будущем в планах создание более мощных моделей для решения ещё более сложных задач. Ранее команда представила модель QwQ-Max-Preview, однако QwQ-32B выделяется своим масштабируемым подходом к обучению.

От Дмитрий Соколов

Гик-писака🤓