Сбер выпустил KVAE-Audio: новый токенизатор для генеративных аудиомоделей
D@data_secrets1 дн
Сбер представил KVAE-Audio — новый open-source токенизатор для аудио, обеспечивающий высокую степень сжатия и качество для диффузионных моделей.
Новый дроп в опенсорс от Сбера: выложили токенизатор KVAE-Audio
Фундаментально эта модель решает давнюю проблему обучения диффузионных систем. Им требуется максимально качественное сжатое представление данных, от которого напрямую зависит верхний предел возможностей создания нового контента. Разработчики закрыли эту потребность, представив третью часть семейства KVAE. Ранее команда уже публиковала схожие алгоритмы для работы с видео и картинками, а теперь очередь дошла до аудио формата.
Система способна переваривать треки на частоте 48 кГц, охватывая весь спектр человеческого слуха. Во время обработки алгоритм уплотняет временную шкалу в 960 раз. На выходе получается сверхкомпактное пространство, состоящее из 64 каналов. Такие скромные размерности сильно упрощают жизнь при тренировке генеративных архитектур.
Главный инженерный вызов здесь заключался в адаптации выходных данных именно под диффузию. Классические подходы часто показывают отличные цифры при воссоздании исходного аудио, но плохо справляются с созданием оригинального материала. Чтобы сбалансировать результаты в обеих задачах, авторы применили уникальный метод регуляризации.
Если посмотреть на бенчмарки, новинка уверенно обходит MMAudio от Sony абсолютно по всем фронтам. При сравнении с DACVAE от Meta и SAME-L от Stability AI разработка выигрывает в качестве генерации и держит паритет в реконструкции, при этом обладая значительно меньшим весом.
Код и веса под свободной лицензией MIT уже лежат на GitHub и Hugging Face.
Habr
Контекстдемо
Сюда AI будет дописывать короткий фон к сложным постам: что за история, кто участники, ключевые даты и почему это важно — чтобы понять пост без гугления.
Блок появляется только там, где без контекста не разобраться. Сейчас это демо-превью — реальный контекст начнёт генерироваться на бэкенде.
Кратко (AI)
Сбер опубликовал в открытом доступе токенизатор KVAE-Audio, предназначенный для эффективного сжатия аудиоданных при обучении диффузионных моделей. Разработка превосходит аналоги от Sony, Meta и Stability AI по качеству генерации и компактности, предлагая решение проблемы сжатия данных для генеративного аудио.
Обсуждение
3Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.
Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.
А как это соотносится с mDNS в мелких сетях? Или это уже другая история?