Компании Stability AI и Arm объявили о запуске новой компактной модели преобразования текста в аудио, названной Stable Audio Open Small. Эта модель предназначена для работы на мобильных устройствах и способна генерировать аудиоклипы длиной до 11 секунд за всего 7 секунд.

Stable Audio Open Small основана на технологии Adversarial Relativistic-Contrastive (ARC) и демонстрирует впечатляющую производительность. На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, модель создает стереозвук с частотой 44 кГц всего за 75 миллисекунд, обеспечивая практически реальное время генерации звука. В отличие от оригинальной версии, выпущенной в прошлом году и имеющей 1,1 миллиарда параметров, новая модель использует всего 341 миллион параметров, что делает её более доступной для мобильных устройств.

Сокращение параметров и переработка архитектуры модели снизили требования к памяти почти вдвое — с 6,5 ГБ до 3,6 ГБ. Это стало возможным благодаря новым компонентам системы, включая автоэнкодер для сжатия аудиоданных, модуль встраивания для интерпретации текстовых запросов и диффузионную модель для генерации финального звука. Во время тестирования использовался смартфон Vivo X200 Pro с 12 ГБ оперативной памяти и процессором Mediatek Dimensity 9400, что демонстрирует возможности модели на современных мобильных устройствах.

Stability AI отметила, что модель хорошо справляется с генерацией звуковых эффектов и полевых записей, хотя по-прежнему испытывает трудности с музыкой и вокалом. Модель была обучена на 472 000 аудиоклипах из базы данных Freesound, что позволило избежать проблем с авторскими правами благодаря фильтрации данных. Оригинальная версия Stable Audio Open была представлена как бесплатная с открытым исходным кодом и привлекла внимание разработчиков и исследователей.

Перспективы использования данной модели на смартфонах выглядят многообещающе. Это открывает новые возможности для разработчиков приложений, позволяя интегрировать генерацию аудио в мобильные сервисы. Платформа Stability AI Community предоставляет доступ к программному обеспечению на условиях открытого исходного кода, а возможность коммерческого использования регулируется отдельными условиями. Код доступен на GitHub, а доступ к весам модели можно получить через Hugging Face. Более того, пользователи могут попробовать платформу BotHub для тестирования всех доступных моделей без необходимости использования VPN или регистрационных ограничений.

От Дмитрий Соколов

Гик-писака🤓