Що сталося
23 червня 2026 року команда Qwen (Alibaba) випустила незвичний реліз — Qwen-AgentWorld, «мовну модель світу» для ШІ-агентів. Головна ідея: модель училася не діяти всередині середовищ (термінал, браузер, пошук), а передбачати, що ці середовища повернуть у відповідь на дію. По суті це симулятор оточення для агентів — як авіатренажер для пілота. Частина моделей і бенчмарк відкриті.
Деталі
- Що відкрили. У відкритий доступ викладено ваги Qwen-AgentWorld-35B-A3B і бенчмарк AgentWorldBench — на Hugging Face і ModelScope.
- Сім доменів. Модель працює в єдиній архітектурі за сімома середовищами: MCP, пошук, термінал, програмування (SWE), Android, веб і операційна система.
- Результати. Старша версія Qwen-AgentWorld-397B-A17B набрала в загальному заліку 58,71 бала, обійшовши зокрема пропрієтарну GPT-5.4 (58,25). Молодша 35B-A3B дала +8,66 бала до базової Qwen3.5-35B-A3B.
- Як рахували. Кожну передбачену «поведінку середовища» оцінювали за п’ятьма критеріями — формат, фактичність, узгодженість, реалістичність і якість — за шкалою 1–5, потім нормували до 100.
Що це означає
Стосується це насамперед розробників ШІ-агентів і тих, хто експериментує з автономними асистентами локально. Практичний сенс «моделі світу» в тому, що агента можна навчати й тестувати на передбаченнях середовища, а не ганяти щоразу через реальні (повільні й небезпечні) термінал чи браузер — це дешевше й швидше на етапі розробки. Те, що відкрита 397B-версія обійшла закриту GPT-5.4 у цьому вузькому заліку, — ще один аргумент, що розрив між відкритими й пропрієтарними моделями в агентних задачах скорочується. Можливість для практика: 35B-версію з відкритими вагами вже можна завантажити й спробувати на своєму залізі. Горизонт — одразу, реліз доступний.
