Компания Anthropic анонсировала обновление своей флагманской модели искусственного интеллекта Claude Opus. Новая версия, получившая индекс 4.1, не является революционной, но приносит заметные улучшения в ключевых областях, таких как программирование, анализ данных и решение сложных многоэтапных задач.

По словам Майка Кригера, директора по продуктам Anthropic, компания теперь делает ставку на постепенные, но стабильные улучшения, а не только на масштабные релизы. “Раньше мы слишком сосредотачивались на крупных обновлениях, а сейчас работаем над тем, чтобы делать модель лучше шаг за шагом”, — пояснил он.

Одним из главных преимуществ Opus 4.1 стала её возросшая эффективность в работе с кодом. Модель демонстрирует лучшие результаты в тесте SWE Bench Verified, где её точность увеличилась на два процентных пункта по сравнению с предыдущей версией. Кроме того, она лучше справляется с навигацией по крупным кодовым базам и точнее вносит изменения, не создавая новых ошибок. Это особенно важно для разработчиков, которые используют ИИ в повседневной работе.

Помимо программирования, Anthropic улучшила аналитические способности модели. Opus 4.1 лучше обрабатывает длинные документы и сложные запросы, что делает её полезной для исследователей и аналитиков. В специализированных тестах, таких как GPQA Diamond, модель также показала рост производительности.

Интересно, что релиз происходит на фоне ожидаемого выхода GPT 5 от OpenAI. Кригер, однако, подчеркивает, что Anthropic сосредоточена на собственной дорожной карте. “Мы не можем контролировать, что делают конкуренты, поэтому просто работаем над тем, чтобы наши клиенты получали лучший продукт”, — заявил он.

Новый подход компании к обновлениям является более плавным и предсказуемым. Он может изменить то, как пользователи воспринимают развитие ИИ. Если раньше каждый крупный релиз вызывал ажиотаж, то теперь улучшения становятся частью повседневной работы. Это, с одной стороны, снижает градус хайпа, но с другой — делает технологии более надежными и удобными для реальных задач.

Остается вопрос, какую стратегию выберут другие компании, и станет ли постепенное развитие новой нормой в индустрии. Пока же Anthropic уверенно движется по своему пути, предлагая решения для тех, кому важны не громкие заявления, а конкретные результаты.

Opus 4.1 уже доступен для платных пользователей Claude, а также через API, Amazon Bedrock и Google Cloud Vertex AI. Важно, что стоимость использования осталась на уровне предыдущей версии, Opus 4. Этот шаг должен стимулировать разработчиков перейти на обновленную модель, чтобы получить большую производительность при тех же затратах.

Ключевое улучшение коснулось производительности в кодинге. Модель демонстрирует результат в 74,5% на тесте SWE-bench Verified, превосходя Opus 4 (72.5%) и модели конкурентов, такие как OpenAI o3 (69,1%) и Gemini 2.5 Pro (67,2%). Компании GitHub и Rakuten Group отмечают значительные улучшения в рефакторинге кода и точности исправлений в больших проектах.

Несмотря на успехи в программировании, в других областях Opus 4.1 пока уступает. В тесте на логические задачи повышенного уровня сложности (GPQA Diamond) модель набрала 80,9% — это меньше, чем у Gemini 2.5 Pro (86,4%) и OpenAI o3 (83,3%). Схожая ситуация и в решении математических задач школьного уровня, где результат составил 78% против 88% у конкурентов.

Ранее Anthropic представила технику, которая позволяет управлять поведением нейросетей, добавляя или убирая подхалимство, злобу и другие качества.

От Дмитрий Соколов

Гик-писака🤓