Alibaba представила Wan Streamer v0.1 для real-time общения с AI-аватаром

Обзор экспериментальной модели Wan Streamer от Alibaba, объединяющей зрение, слух и генерацию видео в единый трансформер для real-time диалогов.

Ну, за стримеров, опять. Алибаба выкатил Wan Streamer v0.1 - это экспериментальная модель Alibaba Wan Team для РЕАЛТАМОВОГО общения с AI-аватаром: она одновременно “видит”, “слышит”, “думает”, говорит и генерирует видео в режиме стрима. Главное отличие от привычных пайплайнов с отдельными ASR, LLM, TTS и анимацией в том, что всё объединено в один Transformer, где текст, аудио и видео обрабатываются как единый поток. По заявлению авторов, модель работает на 25 fps, имеет около 200 мс задержки на стороне модели и примерно 550 мс полной задержки с учётом сети, что позволяет вести почти мгновенный full-duplex диалог - когда агент продолжает воспринимать пользователя даже во время собственного ответа Кода нет пока, есть сайт проекта: https://wan-streamer.com/ И статья: https://huggingface.co/papers/2606.25041 Качество, конечно, пока отстой: демо пока идут в низком разрешении 192p, но показывают важный фичу - переход от “говорящей головы, прикрученной к чат-боту” к настоящей аудио-визуальной интерактивной модели. Авторы делают акцент на том, что задержка и синхронизация здесь решаются не инженерной склейкой модулей, а самой архитектурой: causal encoders/decoders, block-causal attention и thinker–performer deployment на двух GPU позволяют модели стримить восприятие и генерацию как непрерывный процесс. Какие GPU - не говорят... Интересно, что у них даже руки есть, не только головы. Но очень нервные руки на первом видео. @cgevent

Alibaba представила Wan Streamer v0.1 для real-time общения с AI-аватаром

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде