Исследовательская группа Калифорнийского университета, известная как Hao AI Lab, начала использовать классическую игру Super Mario Bros. для проверки моделей искусственного интеллекта. Наилучшие результаты показали Claude 3.7 и Claude 3.5 от Anthropic, в то время как Gemini 1.5 Pro от Google и GPT-4o от OpenAI столкнулись с проблемами.
Игра была запущена на эмуляторе и интегрирована с GamingAgent, фреймворком, созданным Hao AI Lab, который предоставляет ИИ базовые инструкции, такие как уклонение от препятствий. ИИ затем генерирует команды в коде Python для управления игровым процессом.
Лаборатория отметила, что модели рассуждений, такие как o1 от OpenAI, продемонстрировали худшие результаты в сравнении с их обычными аналогами, что связано с задержками в принятии решений, поскольку в Super Mario Bros. каждая секунда имеет значение.
Хотя игры использовались для оценки ИИ на протяжении многих лет, некоторые эксперты выражают сомнения относительно возможности сопоставления игровых навыков с технологическим прогрессом. Игры часто абстрактны и предлагают бесконечные данные для обучения, что может затруднить оценку.
Недавние тестирования моделей привели к тому, что Андрей Карпаты, научный сотрудник и основатель OpenAI, назвал это «кризисом оценки». В своем посте в соцсети X (бывш. Twitter) он признал, что не знает, какие метрики использовать для определения качества современных моделей ИИ.
Ранее американская технологическая компания Anthropic, которая разработала чат-бот Claude, запустила на стриминговом сервисе Twitch экспериментальную трансляцию, на которой ИИ пытается пройти игру Pokemon Red. Думали, что «Pokemon» — сложный тест для ИИ? Одна группа исследователей утверждает, что Super Mario Bros. ещё сложнее.
Лаборатория искусственного интеллекта Hao, исследовательская организация Калифорнийского университета в Сан-Диего, в пятницу внедрила ИИ в игры Super Mario Bros. Claude 3.7 от Anthropic показал наилучшие результаты, за ним следует Claude 3.5. Gemini 1.5 Pro от Google и GPT-4o от OpenAI показали худшие результаты.
Это была не совсем та же Super Mario Bros., что и оригинальная версия 1985 года. Игра запускалась в эмуляторе и была интегрирована с фреймворком GamingAgent, чтобы ИИ мог управлять Марио.
Игровой агент, разработанный компанией Hao, передавал ИИ базовые инструкции, например: «Если рядом препятствие или враг, двигайтесь/прыгайте влево, чтобы увернуться», и скриншоты из игры. Затем ИИ генерировал входные данные в виде кода Python для управления Марио.
Тем не менее, Нао говорит, что игра заставила каждую модель «научиться» планировать сложные манёвры и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что модели, основанные на рассуждениях, такие как o1 от OpenAI, которые шаг за шагом «размышляют» над проблемами, чтобы найти решение, показали худшие результаты, чем модели, не основанные на рассуждениях, несмотря на то, что в целом они были сильнее в большинстве тестов.
По словам исследователей, одна из основных причин, по которой модели рассуждений испытывают трудности при игре в реальном времени, заключается в том, что им требуется некоторое время, обычно несколько секунд, для принятия решения о действиях. В Super Mario Bros. время решает всё. Секунда может означать разницу между безопасным прыжком и падением и смертью.
Игры десятилетиями использовались для тестирования ИИ. Но некоторые эксперты поставили под сомнение целесообразность проведения параллелей между игровыми навыками ИИ и технологическим прогрессом. В отличие от реального мира, игры, как правило, абстрактны и относительно просты, и они предоставляют теоретически бесконечный объём данных для обучения ИИ.
Недавние впечатляющие результаты в играх указывают на то, что Андрей Карпати, учёный-исследователь и один из основателей OpenAI, назвал «кризисом оценки». «На самом деле я не знаю, на какие показатели ИИ сейчас стоит обращать внимание», — написал он в посте на X. — «Если коротко, то я не знаю, насколько хороши эти модели прямо сейчас». По крайней мере, мы можем посмотреть, как ИИ играет в Марио.
