Qwen-AgentWorld: новая world model для агентных систем
D@dealerAI2 дн
Обзор Qwen-AgentWorld — новой модели, симулирующей последствия действий агентов в 7 доменах для улучшения планирования и обучения ИИ.
Qwen-AgentWorld новая world models с 🛍
Команда Qwen выпустила не просто очередную LLM, а world models 😎 (точнее Language World Model) - по сути это модель, которая симулирует последствия действий агентов в 7 доменах: терминал, веб, Android, OS, SWE, поиск, MCP😜
Модель уже доступна с контекстом до 262K токенов.
В чём суть?
Обычные агенты решают, что делать в среде, в RL это зовётся политикой (policy), а Qwen-AgentWorld же предсказывает, что произойдёт после действия. Это как симулятор "реальности" в голове ИИ, позволяющий планировать без постоянных обращений к реальной среде. Крч становится доступна "осмысленная" многоходовочка. 🧠
Ключевые факты из статьи:
🤍 Архитектура: уже знакомая 35B параметров, активируется только 3B за счёт MoE - 256 экспертов, 8 активных. Гибрид из Gated DeltaNet 75% слоёв для скорости и Gated Attention 25%, для точности.
📚 Обучение: >10 млн реальных траекторий из 7 доменов + 3-этапный пайплайн:
- CPT – закладка знаний о динамике сред
- SFT – активация рассуждений для next-state prediction.
- RL (GSPO) – оттачивание точности с гибридной наградой рубрики + правила. Помните рубрики обсуждали тут.
🏆 Бенчмаркинг AgentWorldBench: результаты на уровне GPT‑5.4 и Claude Opus 4.8, а 35B-версия превосходит более крупные модели. 🤙
Где применять?
1. Симулятор для RL – ожидаемо, можно обучать агентов в тысячах виртуальных сред без развёртывания инфраструктуры.
2. Горячий старт ака warm‑up для агентных моделей, что улучшает результаты на 7ми downstream‑задачах.
Это не просто LLM – это шаг к ИИ, который понимает мир через причинно-следственные связи. Следующий шаг - это VLA с алиэкспресс 👍
Кратко (AI)
Команда Qwen представила AgentWorld, модель, способную предсказывать последствия действий агентов в различных цифровых средах. Архитектура на базе MoE и специализированное обучение позволяют модели эффективно планировать действия, выступая в роли симулятора реальности для других ИИ-систем.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖