Qwen-AgentWorld: новая world model для агентных систем

Обзор Qwen-AgentWorld — новой модели, симулирующей последствия действий агентов в 7 доменах для улучшения планирования и обучения ИИ.

Qwen-AgentWorld новая world models с 🛍 Команда Qwen выпустила не просто очередную LLM, а world models 😎 (точнее Language World Model) - по сути это модель, которая симулирует последствия действий агентов в 7 доменах: терминал, веб, Android, OS, SWE, поиск, MCP😜 Модель уже доступна с контекстом до 262K токенов. В чём суть? Обычные агенты решают, что делать в среде, в RL это зовётся политикой (policy), а Qwen-AgentWorld же предсказывает, что произойдёт после действия. Это как симулятор "реальности" в голове ИИ, позволяющий планировать без постоянных обращений к реальной среде. Крч становится доступна "осмысленная" многоходовочка. 🧠 Ключевые факты из статьи: 🤍 Архитектура: уже знакомая 35B параметров, активируется только 3B за счёт MoE - 256 экспертов, 8 активных. Гибрид из Gated DeltaNet 75% слоёв для скорости и Gated Attention 25%, для точности. 📚 Обучение: >10 млн реальных траекторий из 7 доменов + 3-этапный пайплайн: - CPT – закладка знаний о динамике сред - SFT – активация рассуждений для next-state prediction. - RL (GSPO) – оттачивание точности с гибридной наградой рубрики + правила. Помните рубрики обсуждали тут. 🏆 Бенчмаркинг AgentWorldBench: результаты на уровне GPT‑5.4 и Claude Opus 4.8, а 35B-версия превосходит более крупные модели. 🤙 Где применять? 1. Симулятор для RL – ожидаемо, можно обучать агентов в тысячах виртуальных сред без развёртывания инфраструктуры. 2. Горячий старт ака warm‑up для агентных моделей, что улучшает результаты на 7ми downstream‑задачах. Это не просто LLM – это шаг к ИИ, который понимает мир через причинно-следственные связи. Следующий шаг - это VLA с алиэкспресс 👍

Qwen-AgentWorld: новая world model для агентных систем

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде