MiniMax выпустила MiniMax-M3 — MoE-модель с MSA для миллиона токенов и режимами думания

Что произошло

2 июня 2026 года компания MiniMax опубликовала модель MiniMax-M3 на Hugging Face. Ключевая инновация — MiniMax Sparse Attention (MSA): новый оператор разреженного внимания, позволяющий работать с контекстами до миллиона токенов при резко сниженных требованиях к вычислениям и памяти по сравнению со стандартным GQA. Модель мультимодальная: поддерживает текст, изображения и видео.

Детали

MiniMax-M3 — мультимодальная MoE-модель (Mixture-of-Experts) с поддержкой агентных задач и кодинга. Техническое описание архитектуры опубликовано на arXiv (2606.13392).

ПараметрЗначение
АрхитектураMoE + MiniMax Sparse Attention
Контекстное окноДо 1 млн токенов
МодальностиТекст, изображения, видео
Режимы рассужденияthinking (сложные задачи) / non-thinking (чат, быстрый ответ)
Загрузок на HF6 643 (на 13 июня 2026)

Доступна у провайдеров: Together ($1,2/млн токенов вывода — самый дешёвый), fireworks-ai, novita. Также можно запустить локально через SGLang, vLLM или Transformers.

MSA позволяет кардинально снизить объём вычислений внимания по сравнению с GQA при длинных контекстах — именно это делает модель пригодной для документов, кодовых баз и длинных агентных сессий.

Что это значит

Для разработчиков, работающих с длинными документами и кодовыми базами: миллионный контекст при адекватной цене (Together: $1,2/млн токенов) — практически рабочий вариант для задач типа анализа репозитория или обработки длинного PDF. У модели есть режим thinking для сложных задач и non-thinking для быстрого чата.

Ограничения: модель вышла 2 июня, независимые бенчмарки пока ограничены. Официальные данные по точности в сравнении с конкурентами не представлены в карточке HF. Перед промышленным использованием стоит провести собственное тестирование на вашей задаче.

Горизонт: у MiniMax-M3 появляется ниша в RAG-системах и агентных пайплайнах, где нужен сверхдлинный контекст без дополнительной нарезки. Первые сравнительные тесты сообщества уже публикуются.

Контекст

Примечание: модель вышла 2 июня 2026, с момента публикации прошло около двух недель. Для практического применения смотрите свежие независимые оценки.

Поделиться
Связаться:
Крипто- и data-аналитик, инженер-программист (факультет компьютерных наук ХНУРЭ). В IT с 2008 года: администрировал корпоративный мониторинг в «Vodafone Украина», семь лет разрабатывал и продвигал веб-проекты, пять лет руководил маркетингом на метриках — конверсия, CTR, ROI, LTV.Криптовалютными рынками занимаюсь с 2021 года: ончейн-метрики, токеномика, макроэкономические индикаторы. Разработал собственную data-driven модель анализа рынка на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математическая статистика и EDA; сбор и сверку данных автоматизирую AI-агентами.Принцип — «Don't trust, verify»: каждая цифра проверена по первоисточнику, ключевые — минимум по двум независимым; прогнозы — только сценарии с условиями. Тезис без данных не публикуется.