Компания «Наносемантика» завершила создание универсального программного комплекса, позволяющего управлять роботами с помощью естественной речи. Это решение не требует высокой мощности оборудования, делая технологии доступными для более широкого круга пользователей.
В состав комплекса вошли собственные разработки компании: диалоговая платформа DialogOS, отвечающая за создание голосовых и текстовых роботов, а также технологии NLab Speech ASR и NLab Speech TTS для точного распознавания и синтеза речи. Текущая версия DialogOS совместима с Gemini и отечественной генеративной моделью, что позволяет интегрировать любые другие LLM в зависимости от потребностей пользователя.
Егор Кириллов, бизнес-аналитик «Наносемантики», подчеркнул, что ключевым аспектом разработки стал модульный подход и независимость от аппаратного обеспечения. Комплекс использует клиент-серверную архитектуру, где на конечном устройстве запускается лишь легкий клиент, тогда как вся сложная обработка происходит на сервере. Это обеспечивает высокую производительность и качество распознавания независимо от характеристик оборудования, используемого в роботах.
Комплекс уже прошёл успешные испытания на роботе-собаке по имени «Квант». Он может поддерживать диалог, выполнять голосовые команды и реагировать на своё имя. Для отслеживания обращений в реальном времени использованы технологии KWS и VAD, а синтезированный голос делает взаимодействие более естественным.
Генеральный директор компании, Сабина Спирина, отметила растущий спрос на решения, упрощающие интеграцию роботизированных систем. Новый комплекс делает голосовое управление стандартной функцией, а не дорогой кастомной разработкой, что открывает возможности для широкомасштабных внедрений.
Система также позволяет централизованно обновлять и масштабировать функционал, что важно в условиях быстрой цифровой трансформации. Внедрение таких технологий может значительно упростить процессы в логистике и сервисной робототехнике, повышая общую эффективность бизнеса.
Попробовать новые технологии можно на сайте компании, где доступен диалог с цифровым аватаром по имени Лили, который демонстрирует работу комплекса в реальном времени. Лили является уникальным экспертом, способным вести беседу о всех продуктах и услугах компании, поддерживая интерактивное взаимодействие с пользователями.
