Навіщо Alibaba навчила Qwen не діяти, а передбачати середовище

2 хв. читання
Mystery Box до 500 USDC
BINANCE • до 26.06
Mystery Box до 500 USDC
Запрошуй друзів на Binance — збирай бокси
Приєднатися

Що сталося

23 червня 2026 року команда Qwen (Alibaba) випустила незвичний реліз — Qwen-AgentWorld, «мовну модель світу» для ШІ-агентів. Головна ідея: модель училася не діяти всередині середовищ (термінал, браузер, пошук), а передбачати, що ці середовища повернуть у відповідь на дію. По суті це симулятор оточення для агентів — як авіатренажер для пілота. Частина моделей і бенчмарк відкриті.

Деталі

  • Що відкрили. У відкритий доступ викладено ваги Qwen-AgentWorld-35B-A3B і бенчмарк AgentWorldBench — на Hugging Face і ModelScope.
  • Сім доменів. Модель працює в єдиній архітектурі за сімома середовищами: MCP, пошук, термінал, програмування (SWE), Android, веб і операційна система.
  • Результати. Старша версія Qwen-AgentWorld-397B-A17B набрала в загальному заліку 58,71 бала, обійшовши зокрема пропрієтарну GPT-5.4 (58,25). Молодша 35B-A3B дала +8,66 бала до базової Qwen3.5-35B-A3B.
  • Як рахували. Кожну передбачену «поведінку середовища» оцінювали за п’ятьма критеріями — формат, фактичність, узгодженість, реалістичність і якість — за шкалою 1–5, потім нормували до 100.

Що це означає

Стосується це насамперед розробників ШІ-агентів і тих, хто експериментує з автономними асистентами локально. Практичний сенс «моделі світу» в тому, що агента можна навчати й тестувати на передбаченнях середовища, а не ганяти щоразу через реальні (повільні й небезпечні) термінал чи браузер — це дешевше й швидше на етапі розробки. Те, що відкрита 397B-версія обійшла закриту GPT-5.4 у цьому вузькому заліку, — ще один аргумент, що розрив між відкритими й пропрієтарними моделями в агентних задачах скорочується. Можливість для практика: 35B-версію з відкритими вагами вже можна завантажити й спробувати на своєму залізі. Горизонт — одразу, реліз доступний.

BINANCE TRADERS LEAGUE S3
Спот і ф'ючерси · старт ф'ючерсів 23.06
Приєднатися →
Поділитися
Зв'язатися:
Крипто- та data-аналітик, інженер-програміст (факультет комп'ютерних наук ХНУРЕ). В IT з 2008 року: адміністрував корпоративний моніторинг у «Vodafone Україна», сім років розробляв і просував веб-проєкти, п'ять років керував маркетингом на метриках — конверсія, CTR, ROI, LTV.Криптовалютними ринками займаюся з 2021 року: ончейн-метрики, токеноміка, макроекономічні індикатори. Розробив власну data-driven модель аналізу ринку на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математична статистика та EDA; збір і звірку даних автоматизую AI-агентами.Принцип — «Don't trust, verify»: кожна цифра перевірена за першоджерелом, ключові — щонайменше за двома незалежними; прогнози — лише сценарії з умовами. Теза без даних не публікується.