ИИ🔥
Сбер представил KVAE-Audio: новый алгоритм сжатия аудио
Сбер выпустил KVAE-Audio — алгоритм для сжатия аудиоданных, ускоряющий обучение генеративных моделей и превосходящий аналоги от Sony, Meta и Stability AI.
Сбер опубликовал KVAE-Audio с открытым исходным кодом
В открытый доступ выложили алгоритм для сжатия аудиоданных. Инструмент обрабатывает звук в формате 48 кГц и сжимает его в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами. Компактный размер представления позволяет значительно быстрее обучать генеративные модели, чем если бы они обучались на сырых аудиосигналах.
При разработке подобных решений всегда требуется точный баланс между качеством восстановления изначального звука и генерацией нового. Инженеры внедрили кастомную технику регуляризации для решения типичной проблемы сильного перекоса алгоритмов в сторону реконструкции. Благодаря такому подходу архитектура превзошла токенизатор MMAudio от Sony по всем измеряемым метрикам. Модель также обошла DACVAE от Meta и SAME-L от Stability AI в качестве генерации, сохранив аналогичный уровень восстановления при радикально меньшем количестве параметров.
Проект стал логичным продолжением семейства KVAE. Ранее в этой линейке были опубликованы решения для компрессии изображений и видео. Код и веса доступны GitHub и HuggingFace под свободной лицензией MIT.
Блогпост
Код
Веса
@ai_newz
Кратко (AI)
Сбер опубликовал открытый алгоритм KVAE-Audio для сжатия звука с коэффициентом 960x. Модель оптимизирует обучение генеративных нейросетей и демонстрирует лучшие показатели качества по сравнению с решениями от Sony, Meta и Stability AI.