Релиз Qwen3-ASR: новые возможности распознавания речи
Обзор обновленной модели Qwen3-ASR: высокая пропускная способность, поддержка 30 языков, стриминг и улучшенное выравнивание по таймстампам.
Qwen3-ASR
Ах да, сама распознавалка речи у них тоже обновилась
Компактная, высокая пропускная способность, мультиязычность
Распознавание речи и выравнивание по таймстампам. Покрывают 30 языков, 22 диалекта китайского, разные акценты.
• SOTA среди открытых ASR-моделей
• сопоставима с проприетарными API
• 1.7B параметров
• нативная поддержка в Transformers
• стриминг
• 2000× throughput при 0.6B параметров
• идентификация языка + STT в сложных акустических условиях
• Qwen3-ASR-0.6B - 2000x пропускная способность при 128 одновременных запросов
• единый режим стриминга и офлайн, работа с длинными аудио
• Forced Alignment через Qwen3-ForcedAligner-0.6B: таймстампы до 5 минут, 11 языков, точность выше E2E-аналогов
#asr #stt
Кратко (AI)
Представлена обновленная модель Qwen3-ASR для распознавания речи, отличающаяся высокой производительностью и поддержкой 30 языков. Модель предлагает нативную интеграцию с Transformers, стриминг и специализированный инструмент для точного выравнивания аудио по таймстампам.
Обсуждение
3Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.
Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.
А как это соотносится с mDNS в мелких сетях? Или это уже другая история?