Компания искусственного интеллекта Илона Маска xAI представила обновление своего чат-бота Grok, позволяющее ему «видеть» окружающий мир. Эта новая функция помогает чат-боту обрабатывать и интерпретировать визуальные входные данные, что является заметным шагом в взаимодействии искусственного интеллекта с людьми.
«Представляем Grok Vision, многоязычный звук и поиск в реальном времени в голосовом режиме. Обновление уже доступно», — заявили в компании. Улучшенный чат-бот Grok применяет передовую технологию компьютерного зрения для анализа изображений и видео, предоставляя пользователям ответы с учетом контекста. Например, теперь пользователи могут загрузить фотографию продукта, и Grok сможет идентифицировать его, предложить варианты использования или даже порекомендовать похожие товары.
Данная функция делает Grok более универсальным и интуитивно понятным. С этим обновлением xAI позиционирует себя как серьезного конкурента в области ИИ, бросая вызов таким устоявшимся игрокам, как OpenAI и Google. Пару дней назад было сообщено о тестировании этой новой функции, и теперь чат-бот Grok может отвечать на вопросы о том, что видно на камере вашего смартфона, аналогично доступным функциям распознавания в реальном времени от Gemini и ChatGPT компании Google.
Во вторник xAI анонсировала запуск Grok Vision, который позволяет пользователям наводить телефон на такие объекты, как товары, вывески и документы, и задавать о них вопросы. Grok Vision доступен в приложении Grok для iOS, однако пока не доступен для пользователей Android. Другие новые возможности, которые были запущены в Grok, включают многоязычное аудио и поиск в режиме реального времени в голосовом режиме. Пользователи Grok на Android могут использовать эти функции, но только в том случае, если они подписаны на тарифный план SuperGrok от xAI, стоимость которого составляет 30 долларов в месяц.
Стоит отметить, что в Grok постоянно добавляются новые функции. Ранее в этом месяце xAI добавила в Grok компонент «памяти», который позволяет боту использовать детали из прошлых разговоров, а также инструмент, похожий на холст, для создания документов и приложений. Это делает приложения гораздо более функциональными и адаптивными к запросам пользователей.