GPT-OSS локально: открытые модели OpenAI на ПК

Коротко (TL;DR)

GPT-OSS — это маленькая сенсация: впервые с 2019 года (со времён GPT-2) OpenAI выпустила открытые модели, которые можно скачать и запустить у себя. Релиз состоялся 5 августа 2025 года, и для локального ИИ это событие — теперь у вас на диске может работать модель с фирменным «характером» OpenAI и настраиваемым рассуждением.

Коротко (TL;DR)
Почему это исторически важно
Две версии и MoE-парадокс
Сколько нужно железа: VRAM, кванты и скорость
reasoning_effort: настройка глубины мышления
Формат Harmony: важная грабля
Бенчмарки: близко к o3-mini и o4-mini
Запуск: Ollama, LM Studio, llama.cpp
Настройка под себя: контекст, рассуждения и API
Русский и украинский: честно неясно
GPT-OSS против Qwen3, DeepSeek и Llama
Когда брать GPT-OSS, а когда нет
Риски и грабли
FAQ

Две версии. gpt-oss-20B — для домашнего ПК (запускается на видеокарте 16 ГБ), и gpt-oss-120B — для рабочей станции или сервера (нужна карта на 80 ГБ). Обе построены на архитектуре «смеси экспертов» (MoE) и распространяются под свободной лицензией Apache 2.0.
Сильный reasoning на скромном железе. По бенчмаркам gpt-oss-20B соперничает с закрытой o3-mini, а 120B — с o4-mini. У моделей настраиваемая глубина рассуждений и встроенная работа с инструментами.
Но есть честные минусы. Модель склонна к избыточным отказам («не могу помочь»), требует особого формата промптов Harmony, не работает с изображениями и — важно — не обновлялась с момента выхода.

Минимальное железо для домашней версии: gpt-oss-20B в родном кванте занимает около 16 ГБ, а на 8 ГБ её можно запустить с выгрузкой части в оперативную память. Данные актуальны на 16 июня 2026 года.

Почему это исторически важно

Чтобы оценить событие, нужен контекст. С 2019 года OpenAI не выпускала открытых моделей — компания, с которой начался бум ChatGPT, держала веса закрытыми. GPT-OSS сломала эту паузу: это первые за шесть лет модели OpenAI, которые можно скачать, запустить офлайн, изучить и встроить в свой продукт.

Особенно важна лицензия Apache 2.0 — одна из самых свободных. В отличие от лицензии Llama с её ограничениями, gpt-oss можно использовать коммерчески без порогов и согласований (есть лишь минимальная политика использования — соблюдать закон). Для бизнеса, которому нужен «движок уровня OpenAI» на собственных серверах без отправки данных в облако, это открыло новую дверь.

SpaceX · xStockSpaceX — частная компания. Торгуй её токеном на Bybit за крипту.Торговать SpaceX →

Для нашей аудитории это особенно ценно в одном сценарии — суверенитет данных. Юристы, врачи, компании с чувствительной информацией всё чаще выбирают локальный ИИ не ради скорости, а ради того, чтобы данные физически не покидали их инфраструктуру. GPT-OSS с её Apache 2.0 идеально ложится в эту нишу: «движок в стиле OpenAI» можно развернуть на собственном сервере, в офисе или даже на ноутбуке — без подписок, без передачи запросов наружу и без юридических ограничений на коммерцию. До GPT-OSS такой опции «от самой OpenAI» просто не существовало.

Две версии и MoE-парадокс

GPT-OSS вышла в двух размерах, и оба используют архитектуру «смеси экспертов» (MoE) — именно она объясняет, почему даже большая модель помещается на одну карту.

Модель	Всего параметров	Активных на токен	Контекст	Под какое железо
gpt-oss-20B	20,9 млрд	3,6 млрд	128K	Видеокарта 16 ГБ (RTX 4090/3090)
gpt-oss-120B	116,8 млрд	5,1 млрд	128K	Карта 80 ГБ (H100) / рабочая станция

GPT-OSS: всего параметров против активных на токен (млрд)

Вот в чём «парадокс»: gpt-oss-120B содержит почти 117 млрд параметров, но на каждый токен задействует лишь около 5 млрд. За счёт этого модель «думает» быстро, как небольшая. Но — и это ключевой нюанс для выбора железа — в память нужно загрузить все веса, а не только активные. Поэтому 120B требует около 80 ГБ видеопамяти (это уровень серверной карты H100), а 20B — около 16 ГБ. MoE экономит скорость вычислений, но не объём памяти.

Практический вывод: для домашнего ПК реалистична gpt-oss-20B. Версия 120B — для тех, у кого есть профессиональная карта на 80 ГБ или система с большой единой памятью (например, Mac или мини-ПК с unified memory).

Сколько нужно железа: VRAM, кванты и скорость

У GPT-OSS есть приятная особенность: модели поставляются в родном кванте MXFP4 — то есть OpenAI сразу обучила и выложила их в сжатом 4-битном формате, без потери качества от стороннего квантования. Это значит, что «официальные» требования уже учитывают сжатие.

Версия (MXFP4)	VRAM	Железо	Скорость*
gpt-oss-20B	~16 ГБ	RTX 4090	~180–220 tok/s
gpt-oss-20B	~16 ГБ	RTX 3090	~144–160 tok/s
gpt-oss-20B (offload)	8 ГБ + ОЗУ	RTX 3060/3070 + RAM	~40 tok/s
gpt-oss-120B	~80 ГБ	H100 (серверная)	высокая
gpt-oss-120B	unified ~96 ГБ+	Mac Studio / мини-ПК	скромнее, зависит от чипа

*Скорость — по замерам сообщества (июнь 2026); зависит от кванта, контекста и бекенда.

Что отсюда следует:

$100M Giveaway

BYBIT · RWA$100M GiveawayТоргуй акциями, золотом и нефтью. Крути Lucky Draw — до $1000 в NVDA xStock.Забрать шанс →

16 ГБ VRAM (RTX 4090, 3090) — комфортный дом для gpt-oss-20B: скорость на RTX 4090 достигает 180–220 токенов/с (по замерам сообщества), на RTX 3090 — около 144–160.
8 ГБ VRAM — 20B всё ещё можно запустить, выгрузив часть слоёв-«экспертов» в оперативную память. Скорость упадёт примерно до 40 токенов/с, но модель заработает даже на скромной карте. Это полезный приём для старого железа.
80 ГБ — территория 120B: профессиональная карта H100 или платформа с большой единой памятью.

Отдельно про 120B на «домашнем» железе: благодаря MoE её реально запустить не только на серверной H100, но и на системах с большой единой памятью — Mac Studio или мини-ПК на чипах с unified memory (около 96 ГБ и больше). Скорость там скромнее, чем на H100, но сам факт, что модель почти на 117 млрд параметров крутится на компактном устройстве, — заслуга именно архитектуры «смеси экспертов». Подробнее о таких платформах — в наших обзорах сборок для локального ИИ.

Важная техническая оговорка: родной формат MXFP4 нативно ускоряется только на новых архитектурах (Hopper и Blackwell). На видеокартах до них — это потребительские RTX 30xx и 40xx — формат эмулируется программно: модель запустится, но без аппаратного выигрыша в скорости от самого MXFP4. Нативное ускорение есть на RTX 50xx и серверных картах.

Если выбираете видеокарту под локальный ИИ, отталкивайтесь от объёма VRAM — подробный разбор в гиде по выбору GPU для ИИ.

reasoning_effort: настройка глубины мышления

Как и некоторые современные модели, GPT-OSS умеет «думать вслух» (chain-of-thought) перед ответом. Но у неё есть удобный регулятор — параметр reasoning_effort с тремя уровнями: low, medium, high.

Задаётся он прямо в системном промпте строкой вида Reasoning: low. Логика простая:

low — быстрый ответ с минимумом рассуждений, для простых задач и чата;
medium — баланс, подходит для большинства задач;
high — максимум размышлений, для сложной математики, логики и кода.

Это удобно: не нужно держать две модели — «быструю» и «умную». Для рутины ставите low, для трудной задачи переключаете на high прямо в запросе. Чем выше уровень, тем дольше ответ и больше расход контекста на рассуждения — об этом стоит помнить на длинных диалогах.

На практике это выглядит так: добавляете в системный промпт строку Reasoning: high — и на вопрос по сложному алгоритму модель развернёт подробную цепочку рассуждений, прежде чем дать ответ. Поставите Reasoning: low — и простой запрос она закроет мгновенно, не тратя время на размышления. Одна модель превращается в гибкий инструмент: от быстрого ассистента до вдумчивого «решателя» задач — переключением одной строки.

Формат Harmony: важная грабля

Это нюанс, на котором спотыкаются при ручном запуске. GPT-OSS обучена работать в особом формате промптов под названием Harmony — со специальными разделителями вроде <|channel|>analysis (рассуждения) и final (итоговый ответ). Если подать модели запрос «не в том формате», она ведёт себя странно: путает рассуждения с ответом или выдаёт мусор.

Хорошая новость: при запуске через Ollama или LM Studio об этом думать не нужно — они применяют формат Harmony автоматически. Грабли возникают, если вы используете llama.cpp или собственный код напрямую и неправильно настроили шаблон промпта (известны несовместимости с jinja-шаблонами). Вывод практический: для простого локального запуска берите Ollama — она избавляет от возни с форматом. Ручная настройка Harmony нужна только продвинутым пользователям при интеграции в свой код.

Бенчмарки: близко к o3-mini и o4-mini

Главное достижение GPT-OSS — высокий уровень рассуждений для открытых моделей. По официальным данным OpenAI (август 2025):

gpt-oss-120B на максимальном reasoning берёт 92,5% на сложном математическом AIME 2025, 80,1% на научном GPQA Diamond и 62,4% на тесте программирования SWE-Bench — это почти уровень закрытой o4-mini.
gpt-oss-20B показывает 91,7% на AIME 2025 и 71,5% на GPQA — на уровне или выше o3-mini.

Что это значит на практике: для задач на математику, логику и код GPT-OSS даёт результат, сопоставимый с закрытыми «mini»-моделями OpenAI, но локально и бесплатно. Оговорка стандартная: бенчмарки отражают узкие задачи; на реальной работе многое зависит от ваших сценариев, и рекордные цифры стоит проверять самому.

Ещё важная деталь: эти рекордные цифры достигаются на максимальном уровне рассуждений (high). На low модель отвечает быстрее, но проще — и результат на сложных бенчмарках падает. Это не обман, а та самая гибкость: вы сами решаете, тратить ли вычисления на глубокое размышление. Для повседневных задач хватает medium, а high приберегите для действительно трудных вопросов.

Если сравнивать с другими открытыми «думающими» моделями, GPT-OSS играет в одной лиге с DeepSeek-R1 и reasoning-режимом Qwen3, но с двумя оговорками. Плюс GPT-OSS — настраиваемое усилие рассуждений и совместимость с экосистемой OpenAI «из коробки». Минус — те самые избыточные отказы и отсутствие данных по русскому. Для чисто математических и логических задач на английском GPT-OSS — один из сильнейших открытых вариантов; для русскоязычной работы и стабильной отзывчивости конкуренты выглядят надёжнее.

Запуск: Ollama, LM Studio, llama.cpp

Самый простой путь — Ollama, который сам разбирается с форматом Harmony (проверено по каталогу Ollama, июнь 2026):

ollama run gpt-oss:20b      # домашняя версия, 16 ГБ
ollama run gpt-oss:120b     # серверная версия, 80 ГБ

Ollama сразу поднимает локальный API, совместимый с форматом OpenAI, — удобно для подключения к редакторам кода и ботам.

LM Studio — графический интерфейс с каталогом моделей и удобным просмотром рассуждений отдельно от ответа; тоже корректно работает с Harmony.

llama.cpp и vLLM — для тонкой настройки и серверных сценариев. Здесь будьте внимательны к формату Harmony и шаблонам промптов (см. раздел выше). Например, запуск 120B через сервер llama.cpp выглядит так:

llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 -fa --jinja --reasoning-format none

Флаг --jinja подключает шаблон Harmony — без него ответы будут «сырыми».

Типовые ошибки и решения:

Модель «не помещается» — для 20B нужно 16 ГБ; на 8 ГБ запускайте с выгрузкой слоёв в оперативную память, на 120B потребуется 80 ГБ.
Странные ответы (рассуждения вперемешку с ответом) — нарушен формат Harmony; используйте Ollama или LM Studio, которые применяют его сами.
Медленно на старой карте — формат MXFP4 не ускоряется аппаратно до Hopper; это ожидаемо, модель всё равно работает.

Настройка под себя: контекст, рассуждения и API

Несколько параметров под свои задачи.

Уровень рассуждений. Главный регулятор GPT-OSS — reasoning_effort в системном промпте (low/medium/high). Держите low для рутины и переключайте на high для сложных задач; это прямо влияет на скорость и расход контекста.
Длина контекста (num_ctx). Модель поддерживает 128K токенов, но Ollama по умолчанию выделяет меньше. Для длинных документов поднимайте num_ctx вручную, помня про расход видеопамяти на контекст — с включёнными рассуждениями он растёт быстрее.
Температура. Для математики, кода и точных задач ставьте низкую (0.1–0.3). Это общепринятые ориентиры сообщества.
Встроенные инструменты. GPT-OSS из коробки умеет вызывать инструменты (поиск, выполнение кода) — это помогает обойти ограничение «знаний до июня 2024», подключив модели актуальный источник данных. Настройка зависит от бекенда.

Режим API. Ollama поднимает сервер на localhost:11434 в формате OpenAI: подключайте GPT-OSS к редакторам кода, агентам и скриптам. Поскольку формат API совпадает с облачным OpenAI, перевести существующий проект с облачного GPT на локальный gpt-oss часто можно сменой адреса сервера — данные при этом остаются на вашем компьютере.

Русский и украинский: честно неясно

Здесь придётся быть откровенными. OpenAI не публиковала отдельных данных по качеству русского и украинского у GPT-OSS. Модель многоязычна, но в официальном многоязычном тесте (MMMLU, 14 языков) русского и украинского нет — поэтому судить о качестве напрямую по цифрам нельзя.

По косвенным признакам (общий уровень многоязычности 81,3% у 120B и 75,7% у 20B на поддерживаемых языках, по данным model card) можно ожидать приличного, но не топового результата на русском. Есть и тревожный сигнал: независимое red-teaming-исследование (arXiv, октябрь 2025) по «языкам с малым ресурсом» выявило у GPT-OSS повышенную склонность к выдумыванию фактов на редких языках. Русский к редким не относится, но осторожность не помешает.

Практический вывод: если русский или украинский — главное в вашей задаче, надёжнее взять Qwen3, у которого оба языка официально поддержаны и проверены. GPT-OSS берите ради reasoning и экосистемы OpenAI, а качество на русском проверяйте на своих примерах.

GPT-OSS против Qwen3, DeepSeek и Llama

«Лучшей модели вообще» не бывает. Вот честное сравнение с тремя соперниками в локальном сегменте (по состоянию на июнь 2026).

Критерий	GPT-OSS	Qwen3	DeepSeek-R1	Llama
Рассуждение	Сильное (настраиваемое)	Сильное (гибрид)	Сильное	Среднее
Русский/украинский	Неясно (нет данных)	Лучший	Средне	Средне
Лицензия	Apache 2.0	Apache 2.0	MIT	Community
Мультимодальность	Нет (только текст)	Есть варианты	Нет	Vision (отд. версии)
Отказы (цензура)	Высокие	Средние (политика)	В весах (Китай)	Низкие
Обновления	Нет (с авг. 2025)	Регулярные	Регулярные	Регулярные

Где GPT-OSS сильна: reasoning уровня o-mini локально, свободная лицензия и «характер» OpenAI. Где стоит выбрать иначе: для русского сильнее Qwen3, для работы с картинками — Gemma или Qwen-Vision, а если важны регулярные обновления — у конкурентов с ними лучше.

Когда брать GPT-OSS, а когда нет

Сведём выбор к простым сценариям.

Берите GPT-OSS, если:

вам нужен сильный reasoning локально уровня o3-mini/o4-mini для математики, логики и кода;
важен суверенитет данных и свободная лицензия Apache 2.0 для бизнеса;
вы хотите «характер» и экосистему OpenAI на своём железе, с привычным API;
задачи преимущественно на английском, а формат запросов — структурированный.

Выберите альтернативу, если:

главное — русский или украинский: берите Qwen3;
нужна мультимодальность (картинки, звук) — GPT-OSS только текст, смотрите Gemma или Qwen-Vision;
вас раздражают избыточные отказы — Qwen3 и DeepSeek дают меньше «не могу помочь»;
важны регулярные обновления — GPT-OSS не развивается с августа 2025.

Универсального ответа нет: GPT-OSS — это про reasoning и контроль над данными в экосистеме OpenAI, а не про лучший русский или свежесть весов.

Риски и грабли

Избыточные отказы (главный минус). GPT-OSS унаследовала строгие настройки безопасности OpenAI и часто отказывается отвечать даже на безобидные запросы, заполняя «рассуждения» ссылками на политику. Это известная претензия сообщества; часть пользователей уходит на «расцензуренные» (abliterated) версии от сторонних авторов — учтите, что это уже не официальная модель.
Не обновлялась с релиза. На июнь 2026 — это больше 10 месяцев без новых весов. Сообщество разочаровано: модель хороша, но OpenAI не развивает её, тогда как Qwen и DeepSeek выпускают версии регулярно.
Только текст. GPT-OSS не работает с изображениями и звуком — для мультимодальных задач нужна другая модель.
Знания до июня 2024. Модель не знает событий после этой даты; для актуальной информации подключайте поиск или базу знаний (RAG).
Формат Harmony. При ручной интеграции легко ошибиться с форматом промпта — для простого запуска используйте Ollama.
MXFP4 без ускорения на старых картах. На видеокартах до Hopper родной формат эмулируется программно — без прироста скорости.
Перегрев при долгих сессиях. Длительная нагрузка греет видеокарту — следите за температурами на компактных сборках.

FAQ

Потянет ли GPT-OSS моя видеокарта на 8 ГБ? Версию gpt-oss-20B — да, но с оговоркой: 16 ГБ для неё штатный объём, а на 8 ГБ её запускают с выгрузкой части «экспертов» в оперативную память. Скорость упадёт примерно до 40 токенов/с, но модель заработает. Версия 120B на 8 ГБ невозможна — ей нужно около 80 ГБ.

Нужен ли сервер H100 для gpt-oss-120B? Практически да: 120B требует около 80 ГБ видеопамяти, и это уровень профессиональной карты H100. Альтернатива — система с большой единой памятью (например, Mac или мини-ПК с unified memory от 96 ГБ). На обычной игровой видеокарте 120B не запустится; для дома берите 20B.

Что такое формат Harmony и нужно ли с ним возиться? Это особый формат промптов, под который обучена GPT-OSS (с разделителями рассуждений и ответа). При запуске через Ollama или LM Studio он применяется автоматически — возиться не нужно. Ручная настройка требуется только при интеграции через llama.cpp или собственный код.

Хорош ли GPT-OSS для русского языка? Точных данных нет — русского и украинского нет в официальных многоязычных тестах модели. Ожидаемо результат приличный, но не лучший среди открытых моделей. Для русскоязычных задач надёжнее Qwen3; GPT-OSS проверяйте на своих примерах.

Почему GPT-OSS часто отказывается отвечать? Это следствие строгих настроек безопасности OpenAI: модель перестраховывается и отклоняет даже безобидные запросы. Известная претензия к ней. Часть пользователей переходит на сторонние «расцензуренные» версии, но это уже неофициальные модели — применяйте на свой риск.

Чем gpt-oss-20B отличается от 120B, кроме размера? В основном мощностью рассуждений и требованиями к железу. 20B запускается на домашней карте 16 ГБ и по бенчмаркам сопоставима с o3-mini; 120B сильнее (уровень o4-mini), но требует около 80 ГБ видеопамяти. Архитектура у обеих одинаковая (MoE), лицензия и формат тоже — выбор сводится к тому, какое железо у вас есть.

Можно ли использовать GPT-OSS в коммерческом продукте? Да. Лицензия Apache 2.0 разрешает коммерческое использование без порогов и роялти; есть лишь минимальная политика использования (соблюдать применимое законодательство). Это делает GPT-OSS удобным выбором для встраивания в продукты и развёртывания на собственных серверах.

GPT-OSS обновляется? На июнь 2026 — нет. С момента релиза в августе 2025 OpenAI не выпустила новых весов, и сообщество отмечает это как разочарование: модель хороша, но «застыла». Конкуренты вроде Qwen и DeepSeek за это время выпустили несколько обновлений. Если для вас важна свежесть модели, учитывайте это при выборе.