Alibaba представила Wan Streamer v0.1 для real-time общения с AI-аватаром
N@NeuralShit2 дн
Обзор экспериментальной модели Wan Streamer от Alibaba, объединяющей зрение, слух и генерацию видео в единый трансформер для real-time диалогов.
Ну, за стримеров, опять.
Алибаба выкатил Wan Streamer v0.1 - это экспериментальная модель Alibaba Wan Team для РЕАЛТАМОВОГО общения с AI-аватаром: она одновременно “видит”, “слышит”, “думает”, говорит и генерирует видео в режиме стрима. Главное отличие от привычных пайплайнов с отдельными ASR, LLM, TTS и анимацией в том, что всё объединено в один Transformer, где текст, аудио и видео обрабатываются как единый поток. По заявлению авторов, модель работает на 25 fps, имеет около 200 мс задержки на стороне модели и примерно 550 мс полной задержки с учётом сети, что позволяет вести почти мгновенный full-duplex диалог - когда агент продолжает воспринимать пользователя даже во время собственного ответа
Кода нет пока, есть сайт проекта:
https://wan-streamer.com/
И статья:
https://huggingface.co/papers/2606.25041
Качество, конечно, пока отстой: демо пока идут в низком разрешении 192p, но показывают важный фичу - переход от “говорящей головы, прикрученной к чат-боту” к настоящей аудио-визуальной интерактивной модели. Авторы делают акцент на том, что задержка и синхронизация здесь решаются не инженерной склейкой модулей, а самой архитектурой: causal encoders/decoders, block-causal attention и thinker–performer deployment на двух GPU позволяют модели стримить восприятие и генерацию как непрерывный процесс.
Какие GPU - не говорят...
Интересно, что у них даже руки есть, не только головы. Но очень нервные руки на первом видео.
@cgevent
Кратко (AI)
Alibaba представила экспериментальную модель Wan Streamer, которая обрабатывает текст, аудио и видео как единый поток в рамках одного трансформера. Это позволяет достичь минимальных задержек при общении с AI-аватаром, обеспечивая полноценный full-duplex диалог.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖