Зачем Alibaba научила Qwen не действовать, а предсказывать среду

Обновление: 2026/06/25

2 мин. чтения

Дроп $1000

BYBIT · ФЬЮЧЕРС-ДРОП

Дроп $1000

100 наград новичкам · депозит до 30 июня

Участвовать →

Что произошло

23 июня 2026 года команда Qwen (Alibaba) выпустила необычный релиз — Qwen-AgentWorld, «языковую модель мира» для ИИ-агентов. Главная идея: модель училась не действовать внутри сред (терминал, браузер, поиск), а предсказывать, что эти среды вернут в ответ на действие. По сути это симулятор окружения для агентов — как авиатренажёр для пилота. Часть моделей и бенчмарк открыты.

Что произошло
Детали
Что это значит

Детали

Что открыли. В открытый доступ выложены веса Qwen-AgentWorld-35B-A3B и бенчмарк AgentWorldBench — на Hugging Face и ModelScope.
Семь доменов. Модель работает в единой архитектуре по семи средам: MCP, поиск, терминал, программирование (SWE), Android, веб и операционная система.
Результаты. Старшая версия Qwen-AgentWorld-397B-A17B набрала в общем зачёте 58,71 балла, обойдя в том числе проприетарную GPT-5.4 (58,25). Младшая 35B-A3B дала +8,66 балла к базовой Qwen3.5-35B-A3B.
Как считали. Каждое предсказанное «поведение среды» оценивали по пяти критериям — формат, фактичность, согласованность, реалистичность и качество — по шкале 1–5, затем нормировали к 100.

Что это значит

Касается это в первую очередь разработчиков ИИ-агентов и тех, кто экспериментирует с автономными ассистентами локально. Практический смысл «модели мира» в том, что агента можно обучать и тестировать на предсказаниях среды, а не гонять каждый раз через реальные (медленные и небезопасные) терминал или браузер — это дешевле и быстрее на этапе разработки. То, что открытая 397B-версия обошла закрытую GPT-5.4 в этом узком зачёте, — ещё один аргумент, что разрыв между открытыми и проприетарными моделями в агентных задачах сокращается. Возможность для практика: 35B-версию с открытыми весами уже можно скачать и попробовать на своём железе. Горизонт — сразу, релиз доступен.

ТЕГИ:agents ai-models benchmarks qwen

ИСТОЧНИКИ:VentureBeat GitHub (QwenLM)arXiv

ByVolodymyr Polkovnichenko

Связаться:

Крипто- и data-аналитик, инженер-программист (факультет компьютерных наук ХНУРЭ). В IT с 2008 года: администрировал корпоративный мониторинг в «Vodafone Украина», семь лет разрабатывал и продвигал веб-проекты, пять лет руководил маркетингом на метриках — конверсия, CTR, ROI, LTV.Криптовалютными рынками занимаюсь с 2021 года: ончейн-метрики, токеномика, макроэкономические индикаторы. Разработал собственную data-driven модель анализа рынка на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математическая статистика и EDA; сбор и сверку данных автоматизирую AI-агентами.Принцип — «Don't trust, verify»: каждая цифра проверена по первоисточнику, ключевые — минимум по двум независимым; прогнозы — только сценарии с условиями. Тезис без данных не публикуется.