Google DeepMind анонсировала две новые модели искусственного интеллекта, которые улучшат взаимодействие роботов с физическим миром. Обе системы основаны на возможностях Gemini 2.0. Первая модель, Gemini Robotics, представляет собой усовершенствованную модель Vision-Language-Action (VLA), разработанную специально для прямого управления роботами. Она обрабатывает и отвечает на команды на естественном языке на нескольких языках, что позволяет преодолевать разрыв между цифровыми возможностями и физическим взаимодействием.

В ходе тестирования Gemini Robotics продемонстрировала способность справляться с незнакомыми ситуациями и объектами, не включенными в обучающие данные. Система непрерывно контролирует окружающую среду и быстро адаптируется к проблемным ситуациям, демонстрируя увеличенную производительность в задачах обобщения. Модель показала сложный контроль при выполнении задач, таких как складывание оригами и упаковка закусок. Gemini Robotics была протестирована на платформе двурукого робота ALOHA 2, но также может взаимодействовать с различными типами роботов, включая системы рук Franka.

Вторая модель, Gemini Robotics-ER, расширяет эти возможности с помощью улучшенного пространственного восприятия, позволяя системе объединять восприятие с навыками программирования для создания новых функций. Например, предоставляя инструкции по охвату кофейного средства, система может точно рассчитать, как лучше всего подойти к задаче. Google Deepmind утверждает, что Robotics-ER справляется с управлением роботами в два-три раза эффективнее, чем стандартная версия.

Работы по разработке обеих моделей ведутся с участием ключевых партнёров, включая Apptronik, Boston Dynamics и Agility Robots, которые помогают в вопросах тестирования и создания гуманоидных роботов. Кроме этого, DeepMind выпустила набор данных ASIMOV, чтобы помочь исследователям оценить безопасность действий роботов в реальных ситуациях.

Глава отдела робототехники Google DeepMind Каролина Парада подчеркивает, что новые модели превосходят предшественников в трех ключевых аспектах: обобщении, адаптивности и ловкости. Эти улучшения жизненно необходимы для создания «нового поколения полезных роботов». Тесты на визуальное, командное и действия обобщение показали, что роботы на базе Gemini способны адаптироваться к меняющимся условиям и инструкциям, что делает их более эффективными в выполнении задач.

Генерация безопасного поведения также является приоритетом для Google DeepMind. Gemini Robotics-ER включает многоуровневый подход к безопасности, который включает в себя традиционные меры, а также новые системы, которые помогают оценивать инструкции и их последствия. Это обеспечит безопасность при взаимодействии роботов с непривычными для них объектами и снижает риск аварийных ситуаций в повседневной жизни.

От Дмитрий Соколов

Гик-писака🤓