Компания Яндекс объявила об открытом доступе к YandexGPT 5 Lite Pretrain — новой языковой модели, содержащей 8 миллиардов параметров и поддерживающей контекст в 32 тысячи токенов. Эта модель, по данным компании, превосходит зарубежные аналоги в большинстве бенчмарков и предназначена для разработчиков и бизнеса, которые смогут адаптировать её под свои нужды.
YandexGPT 5 Lite была обучена в два этапа. На первом этапе использовались 15 триллионов токенов, включая русскоязычные и англоязычные тексты, а также данные из различных сфер, таких как программирование и вычисления. На втором этапе применялись 320 миллиардов токенов, уделяя особое внимание качественным образовательным текстам. Это позволило модели обрести обширные знания и мало того, улучшить понимание языка.
В сравнении с предыдущей версией модели, YandexGPT 4 Lite, новая модель показывает заметный рост в точности выполнения математических задач и написания кода. Она также обходит аналогичные зарубежные модели, такие как LLaMa3.1-8B и Qwen-2.5-7B-base, по большинству задач.
С момента последнего релиза большой языковой модели в 2022 году, когда Яндекс представил YaLM-100B, компания продолжала развивать технологии в области машинного обучения. На данный момент разработчики имеют доступ к более чем 120 опенсорс-решениям Яндекса. Это включает инструменты для работы с большими языковыми моделями, такие как библиотека YaFSDP, ускоряющая обучение.
YandexGPT 5 Lite входит в новый ряд нейросетей YandexGPT 5 и свободно доступна на HuggingFace. В то же время, более продвинутая YandexGPT 5 Pro доступна для представителей бизнеса через Yandex Cloud, а также пользователям в чате с голосовым помощником «Алиса».
Новая версия «Алисы» уже работает на YandexGPT 5 Pro и, как утверждается, может соперничать с ведущими мировыми аналогами. Владельцы подписки «Алиса Про» могут использовать новые функции, такие как улучшенные ответы и способность решать логические задачи. В этой версии помощник также поддерживает оба языка — русский и английский, что делает его полезным для изучения языков.
Yandex планирует регулярно обновлять обе модели и уже работает над новой версией, которая будет иметь способность к рассуждениям. YandexGPT 5 Pro можно использовать в бизнесе для создания виртуальных ассистентов, которые могут обрабатывать документы и анализировать переписку, что значительно упростит рабочие процессы в контакт-центрах.
Таким образом, выход YandexGPT 5 Lite Pretrain не только укрепляет позиции Яндекса в сфере технологии больших языковых моделей, но и предоставляет возможности для адаптации и использования отечественных технологий в различных сферах бизнеса.