Компания VK (бывшая Mail.ru Group) выложила в открытый доступ модель RuModernBERT для обработки естественного русского языка. Она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру.

Инженеры могут использовать RuModernBERT для различных задач в области обработки текста, включая извлечение информации, анализ тональности, поиск и ранжирование в приложениях и сервисах. Модель способна понимать сложные или длинные запросы пользователей, например, в поисковой строке, и находить наиболее релевантную информацию, такие как видео, товары или документы.

RuModernBERT была обучена на 2 триллионах токенов данных на русском и английском языках, а также на коде, с максимальной длиной контекста до 8,192 токенов. Для обучения использовались разнообразные источники данных, включая книги, статьи, посты и комментарии в социальных сетях, что позволяет модели адаптироваться к современному тексту и учитывать разговорную речь.

Клиенты могут получить доступ к RuModernBERT в нескольких версиях: на 150 миллионов параметров и облегченной версии на 35 миллионов параметров. Также обновлены две дополнительные версии модели: USER и USER2, которые помогают инженерам лучше группировать и находить похожую информацию. В версии USER2 внедрена технология, позволяющая сократить объем данных почти без потери точности.

Благодаря современному дизайну RuModernBERT демонстрирует более высокую скорость работы по сравнению с аналогами: время обучения и развертывания на конечных устройствах на 10-20% меньше, а обработка данных на длинных контекстах происходит в 2-3 раза быстрее. При оценке на валидационном датасете RuModernBERT показала лучшие результаты в области обработки естественного языка по сравнению с другими существующими моделями. Модель уже внедрена в продукты и сервисы VK, которые ежедневно используют десятки миллионов пользователей. Найти все версии модели можно на Hugging Face.

От Дмитрий Соколов

Гик-писака🤓