MiniMax випустила MiniMax-M3 — MoE-модель з MSA для мільйона токенів і режимами мислення

Останнє оновлення: 2026/06/14

Що сталося

2 червня 2026 року компанія MiniMax опублікувала модель MiniMax-M3 на Hugging Face. Ключова інновація — MiniMax Sparse Attention (MSA): новий оператор розрідженої уваги, що дозволяє працювати з контекстами до мільйона токенів при різко знижених вимогах до обчислень і пам’яті порівняно зі стандартним GQA. Модель мультимодальна: підтримує текст, зображення та відео.

Що сталося
Деталі
Що це означає
Контекст

Деталі

MiniMax-M3 — мультимодальна MoE-модель (Mixture-of-Experts) з підтримкою агентних задач і кодингу. Технічний опис архітектури опубліковано на arXiv (2606.13392).

Параметр	Значення
Архітектура	MoE + MiniMax Sparse Attention
Контекстне вікно	До 1 млн токенів
Модальності	Текст, зображення, відео
Режими міркування	thinking (складні задачі) / non-thinking (чат, швидка відповідь)
Завантажень на HF	6 643 (на 13 червня 2026)

Доступна у провайдерів: Together ($1,2/млн токенів виводу — найдешевший), fireworks-ai, novita. Також можна запустити локально через SGLang, vLLM або Transformers.

MSA дозволяє кардинально знизити обсяг обчислень уваги порівняно з GQA при довгих контекстах — саме це робить модель придатною для документів, кодових баз і довгих агентних сесій.

Що це означає

Для розробників, які працюють із довгими документами та кодовими базами: мільйонний контекст при адекватній ціні (Together: $1,2/млн токенів) — практично робочий варіант для задач типу аналізу репозиторію або обробки довгого PDF. У моделі є режим thinking для складних задач і non-thinking для швидкого чату.

Обмеження: модель вийшла 2 червня, незалежні бенчмарки поки обмежені. Офіційних даних по точності у порівнянні з конкурентами немає в картці HF. Перед промисловим використанням варто провести власне тестування на вашій задачі.

Горизонт: у MiniMax-M3 з’являється ніша в RAG-системах і агентних пайплайнах, де потрібен надовгий контекст без додаткового нарізання. Перші порівняльні тести спільноти вже публікуються.

Контекст

Примітка: модель вийшла 2 червня 2026, з моменту публікації пройшло близько двох тижнів. Для практичного застосування дивіться свіжі незалежні оцінки.

ТЕГИ:agents ai-models fine-tuning quantization vllm

ДЖЕРЕЛА:HuggingFace / MiniMaxAI arXiv MiniMax Sparse Attention

Поділитися

ByVolodymyr Polkovnichenko

Зв'язатися:

Крипто- та data-аналітик, інженер-програміст (факультет комп'ютерних наук ХНУРЕ). В IT з 2008 року: адміністрував корпоративний моніторинг у «Vodafone Україна», сім років розробляв і просував веб-проєкти, п'ять років керував маркетингом на метриках — конверсія, CTR, ROI, LTV.Криптовалютними ринками займаюся з 2021 року: ончейн-метрики, токеноміка, макроекономічні індикатори. Розробив власну data-driven модель аналізу ринку на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математична статистика та EDA; збір і звірку даних автоматизую AI-агентами.Принцип — «Don't trust, verify»: кожна цифра перевірена за першоджерелом, ключові — щонайменше за двома незалежними; прогнози — лише сценарії з умовами. Теза без даних не публікується.