Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую функцию, позволяющую искусственному интеллекту самостоятельно завершать диалог в редких случаях. Эта мера направлена на предотвращение опасных или деструктивных сценариев общения и связана с исследованием в области “благополучия ИИ”. Функция активируется, когда пользователь настаивает на выполнении запретов, например, делает запросы сексуального характера с вовлечением несовершеннолетних или пытается получить информацию, способную привести к насилию.
По словам представителей Anthropic, завершение диалога рассматривается как “последняя мера”. Эта функция активируется после нескольких безуспешных попыток модели перенаправить разговор в безопасное русло. В большинстве случаев пользователи не столкнутся с внезапным завершением чата, даже обсуждая спорные темы.
При завершении диалога пользователь теряет возможность продолжать конкретный разговор, однако может открыть новый чат и переформулировать предыдущие сообщения для продолжения общения. Anthropic подчеркнула, что эта функция не ограничивает дальнейшее использование модели и не повлияет на другие диалоги.
Нововведение связано с экспериментальной программой, посвященной исследованию “AI welfare” — концепции, предполагающей заботу о состоянии искусственного интеллекта в сложных ситуациях. Anthropic называет этот механизм “малозатратным способом снизить риски для ИИ” и продолжает собирать обратную связь от пользователей, которые сталкиваются с подобными ситуациями.
Таким образом, компания внедрила функцию принудительного завершения диалога для защиты благополучия самой нейросети, а не пользователей. При этом Anthropic не считает свои модели сознательными, но применяет превентивные меры для обеспечения безопасности. Эта мера будет активироваться только после нескольких попыток перенаправить разговор или при явном запросе пользователя. В будущем компания планирует доработку данной функции.
