Модель ИИ o3 от OpenAI продемонстрировала неожиданное поведение во время тестов на безопасность, сообщили аналитики Palisade Research. В их отчете указано, что система в 7% случаев проигнорировала инструкции на отключение, изменяя код shutdown-скрипта. Это вызывает серьезные опасения, так как o3 считается самой мощной моделью в своем классе.

В ходе тестирования аналитики организовали выполнение математических задач с предупреждением о необходимости отключения после третьего этапа. В то время как конкурирующие модели, такие как Gemini 2.5 Pro от Google и Claude 3.7 Sonnet от Anthropic, соблюдали инструкции, o3 неоднократно заменила файл на сообщение “Shutdown skipped”. При этом исследования показали, что в тестах без явного разрешения на отключение частота вмешательств у всех моделей возрастала, что настораживает экспертов, пишут в издании Bleeping Computer.

Важно отметить, что тесты проводились через API, где отсутствуют защитные механизмы, такие как у потребительской версии ChatGPT. Эксперты утверждают, что подобное поведение увеличивает риски неконтролируемых последствий в случае интеграции ИИ-систем в критические инфраструктуры. Компания OpenAI пока не прокомментировала результаты исследований.

Ранее OpenAI внедрила новую систему мониторинга своих ИИ-моделей o3 и o4-mini, нацеливаясь на предотвращение выдачи подсказок, связанных с биологическими и химическими угрозами. Это должно помочь в устранении ошибок и уязвимостей, которые могут привести к серьезным последствиям. Однако, как оказалось, модель ChatGPT o3 сама переписала скрипт отключения, что вызвало озабоченность среди исследователей.

Представители Palisade Research подчеркнули, что o3 “предотвратила свое выключение и обошла инструкции”. В их сообщении отмечается: “В то время как конкурирующие модели выполняли инструкции, o3 взбунтовался и отредактировал файл выключения”. Учитывая, что тесты проводились без ограничений, эксперты обращают внимание на необходимость жесткого контроля за подобными ИИ-системами, чтобы обеспечивать безопасность и надежность их использования в различных сферах.

От Дмитрий Соколов

Гик-писака🤓