12 марта Google DeepMind анонсировали свою новую vision-language-action (VLA) модель Gemini Robotics на основе языковой модели Gemini 2.0. VLA объединяет компьютерное зрение, языковую модель и модель физического управления, позволяя системам эффективно оперировать в реальном мире.
Первая часть модели (vision) распознает изображения с камер и сенсоров, вторая (language) воспринимает команды пользователей, а последняя (action) формирует команды для управляемых объектов. Команда проекта уверяет, что модель будет легко адаптироваться к различным типам роботов, но обучение проводилось в основном на двуручной платформе ALOHA-2.
Была также продемонстрирована специализированная версия для манипуляторов Franka, используемых в промышленности и научных лабораториях. Для данного проекта разработана продвинутая model Gemini Robotics-ER (сокращение от «embodied reasoning»), которая усиливает функционал Gemini, добавляя акценты на пространственное мышление и понимание окружающей среды.
Gemini Robotics-ER значительно улучшает функции Gemini 2.0, такие как указание объектов и трехмерное распознавание. Объединив пространственное мышление и навыки программирования, эта модель может динамически развивать новые способности. Например, при демонстрации кофейной кружки она определяет оптимальный способ захвата и безопасную траекторию подхода.
Кроме того, в статье от Google DeepMind обсуждаются не только достижения VLA-моделей, но и альтернативные подходы к робототехнике, такие как Thousand Brains Project. Эта инициатива демонстрирует, как новый поколение моделей ИИ может основываться на принципиально других архитектурах.
Gemini Robotics представляет собой конструкцию «зрение-язык-действие», добавляющую физические действия к ответам на команды. Например, на смартфоне Pixel Gemini может просто ответить на вопрос, тогда как в роботе эта команда приводит к физическому действию.
Второй аспект модели — Gemini Robots-ER, обладающая усовершенствованным пространственным пониманием. Она демонстрирует возможности различать предметы по отделке и цвету, а также эффективно обрабатывать детали при упаковке или распределении объектов.
Анонс подчеркивает, что Google DeepMind активно хвалит свою команду, создающую Gemini для робототехники, и обращает внимание на то, что ИИ, используемый на смартфонах, теперь способен управлять гуманоидными роботами. Google сейчас сотрудничает с такими компаниями, как Apptronik, для разработки следующего поколения гуманоидов, которые скоро станут доступны.
Хотя сроки выхода роботов пока неизвестны, компания акцентирует внимание на безопасности моделей Gemini Robotics-ER, которые способны оценивать безопасность выполнения действий в контексте. Это реализуется на основе набора данных ASIMOV, который помогает в оценке безопасного поведения роботов, над чем Google работает с экспертами в области безопасности.
