GPT-OSS локально: відкриті моделі OpenAI на ПК

Коротко (TL;DR)

GPT-OSS — це маленька сенсація: уперше з 2019 року (з часів GPT-2) OpenAI випустила відкриті моделі, які можна завантажити й запустити в себе. Реліз відбувся 5 серпня 2025 року, і для локального ШІ це подія — тепер на вашому диску може працювати модель із фірмовим «характером» OpenAI і настроюваним міркуванням.

Коротко (TL;DR)
Чому це історично важливо
Дві версії і MoE-парадокс
Скільки потрібно заліза: VRAM, кванти і швидкість
reasoning_effort: налаштування глибини мислення
Формат Harmony: важлива грабля
Бенчмарки: близько до o3-mini і o4-mini
Запуск: Ollama, LM Studio, llama.cpp
Налаштування під себе: контекст, міркування і API
Українська і російська: чесно неясно
GPT-OSS проти Qwen3, DeepSeek і Llama
Коли брати GPT-OSS, а коли ні
Ризики й граблі
FAQ

Дві версії. gpt-oss-20B — для домашнього ПК (запускається на відеокарті 16 ГБ), і gpt-oss-120B — для робочої станції або сервера (потрібна карта на 80 ГБ). Обидві побудовані на архітектурі «суміші експертів» (MoE) і поширюються під вільною ліцензією Apache 2.0.
Сильний reasoning на скромному залізі. За бенчмарками gpt-oss-20B змагається із закритою o3-mini, а 120B — з o4-mini. У моделей настроювана глибина міркувань і вбудована робота з інструментами.
Але є чесні мінуси. Модель схильна до надмірних відмов («не можу допомогти»), вимагає особливого формату промптів Harmony, не працює із зображеннями і — важливо — не оновлювалася з моменту виходу.

Мінімальне залізо для домашньої версії: gpt-oss-20B у рідному кванті займає близько 16 ГБ, а на 8 ГБ її можна запустити з вивантаженням частини в оперативну пам’ять. Дані актуальні на 16 червня 2026 року.

Чому це історично важливо

Щоб оцінити подію, потрібен контекст. З 2019 року OpenAI не випускала відкритих моделей — компанія, з якої почався бум ChatGPT, тримала ваги закритими. GPT-OSS зламала цю паузу: це перші за шість років моделі OpenAI, які можна завантажити, запустити офлайн, вивчити й вбудувати у свій продукт.

Особливо важлива ліцензія Apache 2.0 — одна з найвільніших. На відміну від ліцензії Llama з її обмеженнями, gpt-oss можна використовувати комерційно без порогів і погоджень (є лише мінімальна політика використання — дотримуватися закону). Для бізнесу, якому потрібен «рушій рівня OpenAI» на власних серверах без надсилання даних у хмару, це відкрило нові двері.

Призи від $40K

BINANCEПризи від $40KПоки крипта лежить, інші торгують за гаджети та крипто-нагороди. Долучайся.ДО ТОРГІВЛІ

Для нашої аудиторії це особливо цінно в одному сценарії — суверенітет даних. Юристи, лікарі, компанії з чутливою інформацією дедалі частіше обирають локальний ШІ не заради швидкості, а заради того, щоб дані фізично не покидали їхню інфраструктуру. GPT-OSS з її Apache 2.0 ідеально лягає в цю нішу: «рушій у стилі OpenAI» можна розгорнути на власному сервері, в офісі чи навіть на ноутбуці — без підписок, без передавання запитів назовні і без юридичних обмежень на комерцію. До GPT-OSS такої опції «від самої OpenAI» просто не існувало.

Дві версії і MoE-парадокс

GPT-OSS вийшла у двох розмірах, і обидва використовують архітектуру «суміші експертів» (MoE) — саме вона пояснює, чому навіть велика модель вміщується на одну карту.

Модель	Усього параметрів	Активних на токен	Контекст	Під яке залізо
gpt-oss-20B	20,9 млрд	3,6 млрд	128K	Відеокарта 16 ГБ (RTX 4090/3090)
gpt-oss-120B	116,8 млрд	5,1 млрд	128K	Карта 80 ГБ (H100) / робоча станція

GPT-OSS: усього параметрів проти активних на токен (млрд)

Ось у чому «парадокс»: gpt-oss-120B містить майже 117 млрд параметрів, але на кожен токен задіює лише близько 5 млрд. За рахунок цього модель «думає» швидко, як невелика. Але — і це ключовий нюанс для вибору заліза — у пам’ять потрібно завантажити всі ваги, а не лише активні. Тому 120B вимагає близько 80 ГБ відеопам’яті (це рівень серверної карти H100), а 20B — близько 16 ГБ. MoE економить швидкість обчислень, але не обсяг пам’яті.

Практичний висновок: для домашнього ПК реалістична gpt-oss-20B. Версія 120B — для тих, у кого є професійна карта на 80 ГБ або система з великою єдиною пам’яттю (наприклад, Mac або міні-ПК з unified memory).

Скільки потрібно заліза: VRAM, кванти і швидкість

У GPT-OSS є приємна особливість: моделі постачаються в рідному кванті MXFP4 — тобто OpenAI одразу навчила й виклала їх у стиснутому 4-бітному форматі, без втрати якості від стороннього квантування. Це означає, що «офіційні» вимоги вже враховують стиснення.

Версія (MXFP4)	VRAM	Залізо	Швидкість*
gpt-oss-20B	~16 ГБ	RTX 4090	~180–220 tok/s
gpt-oss-20B	~16 ГБ	RTX 3090	~144–160 tok/s
gpt-oss-20B (offload)	8 ГБ + ОЗП	RTX 3060/3070 + RAM	~40 tok/s
gpt-oss-120B	~80 ГБ	H100 (серверна)	висока
gpt-oss-120B	unified ~96 ГБ+	Mac Studio / міні-ПК	скромніше, залежить від чипа

*Швидкість — за замірами спільноти (червень 2026); залежить від кванта, контексту й бекенда.

Що звідси випливає:

$3 млн+

TRADERS LEAGUE · SEASON 3$3 млн+Що довше зволікаєш — то важче наздогнати лідерів у таблицяхДолучайся до Ліги →

16 ГБ VRAM (RTX 4090, 3090) — комфортний дім для gpt-oss-20B: швидкість на RTX 4090 сягає 180–220 токенів/с (за замірами спільноти), на RTX 3090 — близько 144–160.
8 ГБ VRAM — 20B усе ще можна запустити, вивантаживши частину шарів-«експертів» в оперативну пам’ять. Швидкість впаде приблизно до 40 токенів/с, але модель запрацює навіть на скромній карті. Це корисний прийом для старого заліза.
80 ГБ — територія 120B: професійна карта H100 або платформа з великою єдиною пам’яттю.

Окремо про 120B на «домашньому» залізі: завдяки MoE її реально запустити не лише на серверній H100, а й на системах із великою єдиною пам’яттю — Mac Studio або міні-ПК на чипах з unified memory (близько 96 ГБ і більше). Швидкість там скромніша, ніж на H100, але сам факт, що модель майже на 117 млрд параметрів крутиться на компактному пристрої, — заслуга саме архітектури «суміші експертів». Докладніше про такі платформи — у наших оглядах збірок для локального ШІ.

Важлива технічна заувага: рідний формат MXFP4 нативно прискорюється лише на нових архітектурах (Hopper і Blackwell). На відеокартах до них — це споживчі RTX 30xx і 40xx — формат емулюється програмно: модель запуститься, але без апаратного виграшу у швидкості від самого MXFP4. Нативне прискорення є на RTX 50xx і серверних картах.

Якщо обираєте відеокарту під локальний ШІ, відштовхуйтеся від обсягу VRAM — докладний розбір у гіді з вибору GPU для ШІ.

reasoning_effort: налаштування глибини мислення

Як і деякі сучасні моделі, GPT-OSS уміє «думати вголос» (chain-of-thought) перед відповіддю. Але в неї є зручний регулятор — параметр reasoning_effort з трьома рівнями: low, medium, high.

Задається він прямо в системному промпті рядком на кшталт Reasoning: low. Логіка проста:

low — швидка відповідь з мінімумом міркувань, для простих задач і чату;
medium — баланс, підходить для більшості задач;
high — максимум роздумів, для складної математики, логіки й коду.

Це зручно: не потрібно тримати дві моделі — «швидку» й «розумну». Для рутини ставите low, для важкої задачі перемикаєте на high прямо в запиті. Що вищий рівень, то довша відповідь і більша витрата контексту на міркування — про це варто пам’ятати на довгих діалогах.

На практиці це виглядає так: додаєте в системний промпт рядок Reasoning: high — і на питання за складним алгоритмом модель розгорне докладний ланцюжок міркувань, перш ніж дати відповідь. Поставите Reasoning: low — і простий запит вона закриє миттєво, не витрачаючи час на роздуми. Одна модель перетворюється на гнучкий інструмент: від швидкого асистента до вдумливого «розв’язувача» задач — перемиканням одного рядка.

Формат Harmony: важлива грабля

Це нюанс, на якому спотикаються при ручному запуску. GPT-OSS навчена працювати в особливому форматі промптів під назвою Harmony — зі спеціальними роздільниками на кшталт <|channel|>analysis (міркування) і final (підсумкова відповідь). Якщо подати моделі запит «не в тому форматі», вона поводиться дивно: плутає міркування з відповіддю або видає сміття.

Хороша новина: при запуску через Ollama або LM Studio про це думати не потрібно — вони застосовують формат Harmony автоматично. Граблі виникають, якщо ви використовуєте llama.cpp або власний код напряму й неправильно налаштували шаблон промпта (відомі несумісності з jinja-шаблонами). Висновок практичний: для простого локального запуску беріть Ollama — вона позбавляє від мороки з форматом. Ручне налаштування Harmony потрібне лише просунутим користувачам при інтеграції у свій код.

Бенчмарки: близько до o3-mini і o4-mini

Головне досягнення GPT-OSS — високий рівень міркувань для відкритих моделей. За офіційними даними OpenAI (серпень 2025):

gpt-oss-120B на максимальному reasoning бере 92,5% на складному математичному AIME 2025, 80,1% на науковому GPQA Diamond і 62,4% на тесті програмування SWE-Bench — це майже рівень закритої o4-mini.
gpt-oss-20B показує 91,7% на AIME 2025 і 71,5% на GPQA — на рівні або вище o3-mini.

Що це означає на практиці: для задач на математику, логіку й код GPT-OSS дає результат, співставний із закритими «mini»-моделями OpenAI, але локально й безкоштовно. Застереження стандартне: бенчмарки відображають вузькі задачі; на реальній роботі багато що залежить від ваших сценаріїв, і рекордні цифри варто перевіряти самому.

Ще важлива деталь: ці рекордні цифри досягаються на максимальному рівні міркувань (high). На low модель відповідає швидше, але простіше — і результат на складних бенчмарках падає. Це не обман, а та сама гнучкість: ви самі вирішуєте, витрачати чи ні обчислення на глибоке міркування. Для повсякденних задач вистачає medium, а high прибережіть для дійсно важких питань.

Якщо порівнювати з іншими відкритими «думаючими» моделями, GPT-OSS грає в одній лізі з DeepSeek-R1 і reasoning-режимом Qwen3, але з двома застереженнями. Плюс GPT-OSS — настроюване зусилля міркувань і сумісність з екосистемою OpenAI «з коробки». Мінус — ті самі надмірні відмови й відсутність даних щодо української. Для суто математичних і логічних задач англійською GPT-OSS — один із найсильніших відкритих варіантів; для україномовної роботи й стабільної чуйності конкуренти виглядають надійніше.

Запуск: Ollama, LM Studio, llama.cpp

Найпростіший шлях — Ollama, який сам розбирається з форматом Harmony (перевірено за каталогом Ollama, червень 2026):

ollama run gpt-oss:20b      # домашня версія, 16 ГБ
ollama run gpt-oss:120b     # серверна версія, 80 ГБ

Ollama одразу піднімає локальний API, сумісний із форматом OpenAI, — зручно для підключення до редакторів коду й ботів.

LM Studio — графічний інтерфейс із каталогом моделей і зручним переглядом міркувань окремо від відповіді; теж коректно працює з Harmony.

llama.cpp і vLLM — для тонкого налаштування й серверних сценаріїв. Тут будьте уважні до формату Harmony і шаблонів промптів (див. розділ вище). Наприклад, запуск 120B через сервер llama.cpp виглядає так:

llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 -fa --jinja --reasoning-format none

Прапор --jinja підключає шаблон Harmony — без нього відповіді будуть «сирими».

Типові помилки й рішення:

Модель «не вміщується» — для 20B потрібно 16 ГБ; на 8 ГБ запускайте з вивантаженням шарів в оперативну пам’ять, на 120B знадобиться 80 ГБ.
Дивні відповіді (міркування впереміш із відповіддю) — порушено формат Harmony; використовуйте Ollama або LM Studio, які застосовують його самі.
Повільно на старій карті — формат MXFP4 не прискорюється апаратно до Hopper; це очікувано, модель усе одно працює.

Налаштування під себе: контекст, міркування і API

Кілька параметрів під свої задачі.

Рівень міркувань. Головний регулятор GPT-OSS — reasoning_effort у системному промпті (low/medium/high). Тримайте low для рутини й перемикайте на high для складних задач; це прямо впливає на швидкість і витрату контексту.
Довжина контексту (num_ctx). Модель підтримує 128K токенів, але Ollama за замовчуванням виділяє менше. Для довгих документів піднімайте num_ctx вручну, пам’ятаючи про витрату відеопам’яті на контекст — з увімкненими міркуваннями він росте швидше.
Температура. Для математики, коду й точних задач ставте низьку (0.1–0.3). Це загальноприйняті орієнтири спільноти.
Вбудовані інструменти. GPT-OSS з коробки вміє викликати інструменти (пошук, виконання коду) — це допомагає обійти обмеження «знань до червня 2024», підключивши моделі актуальне джерело даних. Налаштування залежить від бекенда.

Режим API. Ollama піднімає сервер на localhost:11434 у форматі OpenAI: підключайте GPT-OSS до редакторів коду, агентів і скриптів. Оскільки формат API збігається з хмарним OpenAI, перевести наявний проєкт із хмарного GPT на локальний gpt-oss часто можна зміною адреси сервера — дані при цьому лишаються на вашому комп’ютері.

Українська і російська: чесно неясно

Тут доведеться бути відвертими. OpenAI не публікувала окремих даних щодо якості української та російської в GPT-OSS. Модель багатомовна, але в офіційному багатомовному тесті (MMMLU, 14 мов) української та російської немає — тому судити про якість напряму за цифрами не можна.

За непрямими ознаками (загальний рівень багатомовності 81,3% у 120B і 75,7% у 20B на підтримуваних мовах, за даними model card) можна очікувати пристойного, але не топового результату українською. Є й тривожний сигнал: незалежне red-teaming-дослідження (arXiv, жовтень 2025) щодо «мов із малим ресурсом» виявило в GPT-OSS підвищену схильність до вигадування фактів рідкісними мовами. Українська до рідкісних не належить, але обережність не завадить.

Практичний висновок: якщо українська чи російська — головне у вашій задачі, надійніше взяти Qwen3, у якого обидві мови офіційно підтримані й перевірені. GPT-OSS беріть заради reasoning та екосистеми OpenAI, а якість українською перевіряйте на своїх прикладах.

GPT-OSS проти Qwen3, DeepSeek і Llama

«Найкращої моделі взагалі» не буває. Ось чесне порівняння з трьома суперниками в локальному сегменті (станом на червень 2026).

Критерій	GPT-OSS	Qwen3	DeepSeek-R1	Llama
Міркування	Сильне (настроюване)	Сильне (гібрид)	Сильне	Середнє
Українська/російська	Неясно (немає даних)	Найкращий	Середньо	Середньо
Ліцензія	Apache 2.0	Apache 2.0	MIT	Community
Мультимодальність	Ні (тільки текст)	Є варіанти	Ні	Vision (окр. версії)
Відмови (цензура)	Високі	Середні (політика)	У вагах (Китай)	Низькі
Оновлення	Немає (з серп. 2025)	Регулярні	Регулярні	Регулярні

Де GPT-OSS сильна: reasoning рівня o-mini локально, вільна ліцензія і «характер» OpenAI. Де варто обрати інакше: для української сильніший Qwen3, для роботи з картинками — Gemma або Qwen-Vision, а якщо важливі регулярні оновлення — у конкурентів із ними краще.

Коли брати GPT-OSS, а коли ні

Зведемо вибір до простих сценаріїв.

Беріть GPT-OSS, якщо:

вам потрібен сильний reasoning локально рівня o3-mini/o4-mini для математики, логіки й коду;
важливий суверенітет даних і вільна ліцензія Apache 2.0 для бізнесу;
ви хочете «характер» та екосистему OpenAI на своєму залізі, зі звичним API;
задачі переважно англійською, а формат запитів — структурований.

Оберіть альтернативу, якщо:

головне — українська чи російська: беріть Qwen3;
потрібна мультимодальність (картинки, звук) — GPT-OSS тільки текст, дивіться Gemma або Qwen-Vision;
вас дратують надмірні відмови — Qwen3 і DeepSeek дають менше «не можу допомогти»;
важливі регулярні оновлення — GPT-OSS не розвивається з серпня 2025.

Універсальної відповіді немає: GPT-OSS — це про reasoning і контроль над даними в екосистемі OpenAI, а не про найкращу українську чи свіжість ваг.

Ризики й граблі

Надмірні відмови (головний мінус). GPT-OSS успадкувала суворі налаштування безпеки OpenAI і часто відмовляється відповідати навіть на безневинні запити, заповнюючи «міркування» посиланнями на політику. Це відома претензія спільноти; частина користувачів іде на «розцензуровані» (abliterated) версії від сторонніх авторів — урахуйте, що це вже не офіційна модель.
Не оновлювалася з релізу. На червень 2026 — це понад 10 місяців без нових ваг. Спільнота розчарована: модель хороша, але OpenAI не розвиває її, тоді як Qwen і DeepSeek випускають версії регулярно.
Тільки текст. GPT-OSS не працює із зображеннями і звуком — для мультимодальних задач потрібна інша модель.
Знання до червня 2024. Модель не знає подій після цієї дати; для актуальної інформації підключайте пошук або базу знань (RAG).
Формат Harmony. При ручній інтеграції легко помилитися з форматом промпта — для простого запуску використовуйте Ollama.
MXFP4 без прискорення на старих картах. На відеокартах до Hopper рідний формат емулюється програмно — без приросту швидкості.
Перегрів за довгих сесій. Тривале навантаження гріє відеокарту — стежте за температурами на компактних збірках.

FAQ

Чи потягне GPT-OSS моя відеокарта на 8 ГБ? Версію gpt-oss-20B — так, але із заувагою: 16 ГБ для неї штатний обсяг, а на 8 ГБ її запускають із вивантаженням частини «експертів» в оперативну пам’ять. Швидкість впаде приблизно до 40 токенів/с, але модель запрацює. Версія 120B на 8 ГБ неможлива — їй потрібно близько 80 ГБ.

Чи потрібен сервер H100 для gpt-oss-120B? Практично так: 120B вимагає близько 80 ГБ відеопам’яті, і це рівень професійної карти H100. Альтернатива — система з великою єдиною пам’яттю (наприклад, Mac або міні-ПК з unified memory від 96 ГБ). На звичайній ігровій відеокарті 120B не запуститься; для дому беріть 20B.

Що таке формат Harmony і чи потрібно з ним возитися? Це особливий формат промптів, під який навчена GPT-OSS (з роздільниками міркувань і відповіді). При запуску через Ollama або LM Studio він застосовується автоматично — возитися не потрібно. Ручне налаштування потрібне лише при інтеграції через llama.cpp або власний код.

Чи хороший GPT-OSS для української мови? Точних даних немає — української та російської немає в офіційних багатомовних тестах моделі. Очікувано результат пристойний, але не найкращий серед відкритих моделей. Для україномовних задач надійніший Qwen3; GPT-OSS перевіряйте на своїх прикладах.

Чому GPT-OSS часто відмовляється відповідати? Це наслідок суворих налаштувань безпеки OpenAI: модель перестраховується і відхиляє навіть безневинні запити. Відома претензія до неї. Частина користувачів переходить на сторонні «розцензуровані» версії, але це вже неофіційні моделі — застосовуйте на свій ризик.

Чим gpt-oss-20B відрізняється від 120B, окрім розміру? Здебільшого потужністю міркувань і вимогами до заліза. 20B запускається на домашній карті 16 ГБ і за бенчмарками співставна з o3-mini; 120B сильніша (рівень o4-mini), але вимагає близько 80 ГБ відеопам’яті. Архітектура в обох однакова (MoE), ліцензія і формат теж — вибір зводиться до того, яке залізо у вас є.

Чи можна використовувати GPT-OSS у комерційному продукті? Так. Ліцензія Apache 2.0 дозволяє комерційне використання без порогів і роялті; є лише мінімальна політика використання (дотримуватися застосовного законодавства). Це робить GPT-OSS зручним вибором для вбудовування в продукти й розгортання на власних серверах.

Чи оновлюється GPT-OSS? На червень 2026 — ні. З моменту релізу в серпні 2025 OpenAI не випустила нових ваг, і спільнота відзначає це як розчарування: модель хороша, але «застигла». Конкуренти на кшталт Qwen і DeepSeek за цей час випустили кілька оновлень. Якщо для вас важлива свіжість моделі, враховуйте це при виборі.