Релиз Qwen3-ASR: новые возможности распознавания речи

Обзор обновленной модели Qwen3-ASR: высокая пропускная способность, поддержка 30 языков, стриминг и улучшенное выравнивание по таймстампам.

Qwen3-ASR Ах да, сама распознавалка речи у них тоже обновилась Компактная, высокая пропускная способность, мультиязычность Распознавание речи и выравнивание по таймстампам. Покрывают 30 языков, 22 диалекта китайского, разные акценты. • SOTA среди открытых ASR-моделей • сопоставима с проприетарными API • 1.7B параметров • нативная поддержка в Transformers • стриминг • 2000× throughput при 0.6B параметров • идентификация языка + STT в сложных акустических условиях • Qwen3-ASR-0.6B - 2000x пропускная способность при 128 одновременных запросов • единый режим стриминга и офлайн, работа с длинными аудио • Forced Alignment через Qwen3-ForcedAligner-0.6B: таймстампы до 5 минут, 11 языков, точность выше E2E-аналогов #asr #stt

Кратко (AI)

Представлена обновленная модель Qwen3-ASR для распознавания речи, отличающаяся высокой производительностью и поддержкой 30 языков. Модель предлагает нативную интеграцию с Transformers, стриминг и специализированный инструмент для точного выравнивания аудио по таймстампам.

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

Релиз Qwen3-ASR: новые возможности распознавания речи

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде