Зачем Alibaba научила Qwen не действовать, а предсказывать среду

2 мин. чтения
Дроп $1000
BYBIT · ФЬЮЧЕРС-ДРОП
Дроп $1000
100 наград новичкам · депозит до 30 июня
Участвовать →

Что произошло

23 июня 2026 года команда Qwen (Alibaba) выпустила необычный релиз — Qwen-AgentWorld, «языковую модель мира» для ИИ-агентов. Главная идея: модель училась не действовать внутри сред (терминал, браузер, поиск), а предсказывать, что эти среды вернут в ответ на действие. По сути это симулятор окружения для агентов — как авиатренажёр для пилота. Часть моделей и бенчмарк открыты.

Детали

  • Что открыли. В открытый доступ выложены веса Qwen-AgentWorld-35B-A3B и бенчмарк AgentWorldBench — на Hugging Face и ModelScope.
  • Семь доменов. Модель работает в единой архитектуре по семи средам: MCP, поиск, терминал, программирование (SWE), Android, веб и операционная система.
  • Результаты. Старшая версия Qwen-AgentWorld-397B-A17B набрала в общем зачёте 58,71 балла, обойдя в том числе проприетарную GPT-5.4 (58,25). Младшая 35B-A3B дала +8,66 балла к базовой Qwen3.5-35B-A3B.
  • Как считали. Каждое предсказанное «поведение среды» оценивали по пяти критериям — формат, фактичность, согласованность, реалистичность и качество — по шкале 1–5, затем нормировали к 100.

Что это значит

Касается это в первую очередь разработчиков ИИ-агентов и тех, кто экспериментирует с автономными ассистентами локально. Практический смысл «модели мира» в том, что агента можно обучать и тестировать на предсказаниях среды, а не гонять каждый раз через реальные (медленные и небезопасные) терминал или браузер — это дешевле и быстрее на этапе разработки. То, что открытая 397B-версия обошла закрытую GPT-5.4 в этом узком зачёте, — ещё один аргумент, что разрыв между открытыми и проприетарными моделями в агентных задачах сокращается. Возможность для практика: 35B-версию с открытыми весами уже можно скачать и попробовать на своём железе. Горизонт — сразу, релиз доступен.

SpaceX за крипту
Bybit
SpaceX за крипту
Дробные доли · 24/7
Открыть рынок →
Поделиться
Связаться:
Крипто- и data-аналитик, инженер-программист (факультет компьютерных наук ХНУРЭ). В IT с 2008 года: администрировал корпоративный мониторинг в «Vodafone Украина», семь лет разрабатывал и продвигал веб-проекты, пять лет руководил маркетингом на метриках — конверсия, CTR, ROI, LTV.Криптовалютными рынками занимаюсь с 2021 года: ончейн-метрики, токеномика, макроэкономические индикаторы. Разработал собственную data-driven модель анализа рынка на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математическая статистика и EDA; сбор и сверку данных автоматизирую AI-агентами.Принцип — «Don't trust, verify»: каждая цифра проверена по первоисточнику, ключевые — минимум по двум независимым; прогнозы — только сценарии с условиями. Тезис без данных не публикуется.