Лаборатория Google DeepMind представила две новые модели ИИ, которые помогут роботам «выполнять более широкий спектр реальных задач, чем когда-либо прежде». Gemini Robotics — это модель «зрение-язык-действие», способная понимать новые ситуации без предварительного обучения. А Gemini Robotics-ER компания описывает как передовую модель, которая может «понимать наш сложный и динамичный мир» и управлять движениями робота.

Модель Gemini Robotics построена на основе Gemini 2.0, последней версии флагманской модели ИИ от Google. По словам руководителя отдела робототехники Google DeepMind Каролины Парада, Gemini Robotics «использует мультимодальное понимание мира Gemini и переносит его в реальный мир, добавляя физические действия в качестве новой модальности». Новая модель особенно сильна в трёх ключевых областях, необходимых для создания полезных роботов: универсальность, интерактивность и ловкость. Gemini Robotics может выполнять точные физические задачи, такие как складывание листа бумаги и открывание бутылки.

«Хотя в прошлом мы достигли прогресса в каждой из этих областей по отдельности, теперь мы приносим [резко] увеличивающуюся производительность во всех трёх областях с помощью одной модели», — отметила Парада. Modelo Gemini Robotics-ER разработана для робототехников и позволяет подключаться к существующим контроллерам низкого уровня, управляющим движениями робота. Парада привела пример упаковки ланч-бокса, описывая процесс, в котором Gemini Robotics-ER определяет местоположение предметов, открывает контейнер и осуществляет манипуляции.

Разработчики уделили внимание безопасности и использовали «многоуровневый подход», при котором модели Gemini Robotics-ER учатся оценивать безопасность выполнения действий в заданных сценариях. Google DeepMind также разработала эталонные тесты для дальнейших исследований безопасности в области ИИ, напомнив о своём наборе правил «Конституция робота», вдохновлённых «Тремя законами робототехники» Айзека Азимова.

В данный момент Google DeepMind сотрудничает с Apptronik для создания нового поколения человекоподобных роботов и предоставляет доступ к Gemini Robotics-ER нескольким «доверенным тестировщикам», включая Agile Robots и Boston Dynamics. «Мы сосредоточены на создании интеллекта, который сможет понимать физический и действовать в этом мире», — заключила Парада.

Непосредственно перед этим, в сентябре 2024 года, DeepMind продемонстрировала метод обучения, позволяющий роботам выполнять действия, требующие определённой ловкости. Анонсируя всю работу, Канишка Рао, директор по робототехнике, отметил, что Gemini Robotics справляется с главной проблемой робототехники, обеспечивая роботам возможность работать в новых ситуациях, что будет использоваться в бытовых, промышленных и образовательных целях.

От Дмитрий Соколов

Гик-писака🤓