Что произошло
23 июня 2026 года команда Qwen (Alibaba) выпустила необычный релиз — Qwen-AgentWorld, «языковую модель мира» для ИИ-агентов. Главная идея: модель училась не действовать внутри сред (терминал, браузер, поиск), а предсказывать, что эти среды вернут в ответ на действие. По сути это симулятор окружения для агентов — как авиатренажёр для пилота. Часть моделей и бенчмарк открыты.
Детали
- Что открыли. В открытый доступ выложены веса Qwen-AgentWorld-35B-A3B и бенчмарк AgentWorldBench — на Hugging Face и ModelScope.
- Семь доменов. Модель работает в единой архитектуре по семи средам: MCP, поиск, терминал, программирование (SWE), Android, веб и операционная система.
- Результаты. Старшая версия Qwen-AgentWorld-397B-A17B набрала в общем зачёте 58,71 балла, обойдя в том числе проприетарную GPT-5.4 (58,25). Младшая 35B-A3B дала +8,66 балла к базовой Qwen3.5-35B-A3B.
- Как считали. Каждое предсказанное «поведение среды» оценивали по пяти критериям — формат, фактичность, согласованность, реалистичность и качество — по шкале 1–5, затем нормировали к 100.
Что это значит
Касается это в первую очередь разработчиков ИИ-агентов и тех, кто экспериментирует с автономными ассистентами локально. Практический смысл «модели мира» в том, что агента можно обучать и тестировать на предсказаниях среды, а не гонять каждый раз через реальные (медленные и небезопасные) терминал или браузер — это дешевле и быстрее на этапе разработки. То, что открытая 397B-версия обошла закрытую GPT-5.4 в этом узком зачёте, — ещё один аргумент, что разрыв между открытыми и проприетарными моделями в агентных задачах сокращается. Возможность для практика: 35B-версию с открытыми весами уже можно скачать и попробовать на своём железе. Горизонт — сразу, релиз доступен.
