Gemma локально: яку версію запустити і на чому

Коротко (TL;DR)

Gemma — сімейство відкритих моделей від Google DeepMind, побудоване на тій самій технології, що й хмарний Gemini. Для локального запуску в Gemma репутація «найкращої моделі, що вміщується на одну споживчу відеокарту», і у 2026 році до цього додався ще один вагомий аргумент.

Коротко (TL;DR)
Дві генерації Gemma: 3 і 4
Скільки потрібно заліза: VRAM, кванти і швидкість
QAT-кванти Google: чому вони кращі за звичайні
MoE 26B-A4B: швидка, але пам’ять не економить
Мультимодальність: зображення, OCR та аудіо
Ліцензія: головна історія Gemma
Запуск: Ollama, LM Studio, llama.cpp
Налаштування під себе: контекст, температура і API
Українська і російська: 140+ мов
Бенчмарки й арена: де стоїть Gemma 4
Gemma проти Qwen3, Llama і Mistral
Ризики й граблі
FAQ

Дві генерації. Актуальні обидві: Gemma 3 (розміри 1B, 4B, 12B, 27B) — перевірена база з морем готових квантів, і Gemma 4 (від компактних E2B/E4B до 31B і MoE-варіанта 26B-A4B) — нове покоління квітня 2026 з режимом міркувань і вищими бенчмарками.
Головна зміна — ліцензія. Gemma 3 ішла під власними умовами Google з правом обмежити використання, а Gemma 4 випущена під вільною Apache 2.0. Це знімає юридичний ризик і робить її безпечною для комерційних продуктів.
Сильні сторони: мультимодальність (моделі бачать зображення і добре розпізнають текст із фото), офіційні QAT-кванти з економією пам’яті та підтримка 140+ мов, включно з упевненою українською й російською.

Мінімальне залізо: компактні Gemma 4 E2B/E4B запускаються на 6 ГБ відеопам’яті, флагманська 31B у кванті Q4 заходить у 24 ГБ, а з офіційним QAT-квантом — ще економніше. Дані актуальні на 16 червня 2026 року.

Дві генерації Gemma: 3 і 4

На середину 2026 року в ходу обидві лінійки. Розуміти різницю важливо, бо від покоління залежать і можливості, і — що критично — ліцензія.

Лінійка	Розміри	Контекст	Мультимодальність	Ліцензія	Дата
Gemma 3	1B, 4B, 12B, 27B	32K (1B) / 128K	Зображення (4B+)	Gemma Terms of Use	березень 2025
Gemma 4	E2B, E4B, 12B, 26B-A4B (MoE), 31B	128K / 256K (12B/26B/31B)	Зображення, відео; аудіо — E2B/E4B/12B	Apache 2.0	квітень 2026

Gemma 3 лишається відмінним вибором, якщо вам потрібна стабільна модель з величезним числом готових збірок — її 27B-версія свого часу увійшла в топ відкритих моделей під одну карту 24 ГБ. Gemma 4 — це крок уперед: додався режим міркувань (chain-of-thought), зросли бенчмарки, розширилася мультимодальність (тепер і аудіо), а контекст у старших моделей доріс до 256K. Але головний практичний зсув — ліцензія, про яку окрема розмова нижче.

Скільки потрібно заліза: VRAM, кванти і швидкість

Як і інші локальні моделі, Gemma запускають у квантованому вигляді (формат GGUF, ходовий квант Q4). Ось офіційні вимоги Gemma 4 за відеопам’яттю (значення Google з урахуванням ~20% накладних витрат, квант Q4; дані docs на червень 2026):

Відеопам'ять моделей Gemma 4 у кванті Q4 за обсягом

Модель Gemma 4 (Q4)	VRAM	Комфортне залізо	Швидкість (орієнтир)
E2B (~2B)	~2,9 ГБ	будь-яка карта від 4 ГБ	~15+ tok/s
E4B (~4B)	~4,5 ГБ	6–8 ГБ (RTX 3050/3060)	~10+ tok/s і вище
12B	~6,7 ГБ	8–12 ГБ	висока
26B-A4B (MoE)	~14,4 ГБ	16 ГБ і вище	~30+ tok/s
31B	~17,5 ГБ	24 ГБ (RTX 3090/4090)	до ~140 tok/s (RTX 5090)

Для Gemma 3 орієнтири близькі за розміром: 4B живе на 8 ГБ, 12B — на 12–16 ГБ, а 27B комфортно заходить у 24 ГБ. Важлива поправка, спільна для всіх моделей: до розміру ваг додається пам’ять під контекст (KV-кеш), а в Gemma 4 у режимі міркувань він розростається особливо швидко — про це в розділі про ризики. Цифри швидкості — орієнтир і залежать від заліза, кванта й контексту; свіжі заміри звіряйте на сторінці моделі в каталозі Ollama.

Якщо обираєте відеокарту під локальний ШІ, відштовхуйтеся від обсягу VRAM — докладний розбір у гіді з вибору GPU для ШІ.

QAT-кванти Google: чому вони кращі за звичайні

Це наш information gain — деталь, яку майже не пояснюють українською. Зазвичай модель стискають «постфактум» (квантизація після навчання), і частина якості при цьому втрачається. Google пішла далі й випустила офіційні QAT-кванти (quantization-aware training) — моделі, навчені з урахуванням майбутнього стиснення.

Результат: int4-версія Gemma займає приблизно втричі менше пам’яті, ніж вихідна, але зберігає якість, близьку до повного формату bfloat16. На практиці це означає, що QAT-варіант моделі працює помітно точніше, ніж такий же за розміром звичайний GGUF-квант.

Де взяти: офіційні колекції на Hugging Face — google/gemma-3-qat і google/gemma-4-qat-q4-0. Для llama.cpp шукайте файли із суфіксом -qat-q4_0-gguf. Якщо для вас важливо вичавити максимум якості з обмеженої відеопам’яті — беріть саме QAT-версію, а не перший-ліпший квант.

MoE 26B-A4B: швидка, але пам’ять не економить

У Gemma 4 є модель на архітектурі «суміші експертів» — 26B-A4B. У назві «A4B» означає, що на кожен токен активні лише близько 4 млрд параметрів із 26 млрд. Це робить її швидкою (порядку 30+ токенів/с) і за якістю близькою до флагманської 31B — приблизно 97% від неї.

Але тут криється типова пастка для новачка. «Активних 4B» не значить «потрібно 4 ГБ». У пам’ять вантажаться всі 26 млрд ваг — це близько 14,4 ГБ у кванті Q4. MoE економить обчислення й тим самим швидкість, але не відеопам’ять: щоб запустити 26B-A4B, потрібна карта від 16 ГБ, а не 8. Якщо читали «4B active» і розраховували на свою 8-гігабайтну карту — на жаль, не поміститься.

Мультимодальність: зображення, OCR та аудіо

Одна з найсильніших сторін Gemma — робота не лише з текстом. Моделі Gemma 3 від 4B і вище, а також Gemma 4, уміють бачити зображення: опишуть картинку, розберуть діаграму, витягнуть текст із фотографії документа. Gemma 4 додала роботу з відео, а компактні E2B/E4B (і 12B) — ще й з аудіо.

Особливо цінний для практики сценарій — локальний OCR: розпізнавання тексту з фото й сканів. У спільноті r/LocalLLaMA Gemma регулярно називають однією з найкращих відкритих моделей для цієї задачі. Головний плюс перед хмарними сервісами — приватність: скани паспортів, договорів і медичних документів не покидають ваш комп’ютер.

Запустити мультимодальну модель просто: в Ollama і LM Studio достатньо прикріпити зображення до запиту — модель сама зрозуміє, що з ним працювати. Урахуйте тільки, що обробка картинки вимагає додаткової відеопам’яті понад розмір самої моделі.

Ліцензія: головна історія Gemma

Тут — ключовий сюжет, який більшість оглядів проминає, а для нашої аудиторії він найпрактичніший.

Gemma 3 поширювалася під власними умовами Google — Gemma Terms of Use. Це не відкрита ліцензія в повному сенсі: Google лишала за собою право дистанційно обмежувати використання моделі й накладала низку заборон на сценарії застосування. Для пет-проєкту неважливо, але для бізнесу це був юридичний ризик — на нього прямо звертали увагу профільні видання при виході Gemma 3.

Gemma 4 випущена під Apache 2.0 — однією з найвільніших ліцензій. Жодних порогів, права на дистанційне обмеження й заборон на комерцію: модель можна вбудовувати в продукти, модифікувати й поширювати вільно.

Модель	Ліцензія	Комерція	Особливості
Gemma 3	Gemma Terms of Use	З обмеженнями	Google вправі обмежити використання
Gemma 4	Apache 2.0	Вільно	Без порогів і обмежень
Llama 4	Llama Community	До 700 млн MAU	Заборона вчити інші моделі

Висновок простий: якщо будуєте комерційний продукт, беріть Gemma 4 — з її Apache 2.0 ви юридично чисті. На тлі Gemma 3 і Llama це серйозна перевага.

Запуск: Ollama, LM Studio, llama.cpp

Найпростіший шлях — Ollama. Команди (перевірено за каталогом Ollama, червень 2026):

ollama run gemma3:4b      # легка, 8 ГБ, мультимодальна
ollama run gemma3:12b     # середній клас
ollama run gemma3:27b     # флагман Gemma 3 на 24 ГБ
ollama run gemma4:e4b     # компактна Gemma 4, 6 ГБ
ollama run gemma4:12b     # Gemma 4 середній клас
ollama run gemma4         # флагман 31B (~17,5 ГБ, карта 24 ГБ); для 8 ГБ беріть gemma4:e4b

Ollama одразу піднімає локальний API, сумісний із форматом OpenAI, — зручно для підключення до редакторів коду й ботів.

LM Studio — графічний інтерфейс із каталогом моделей і зручним переглядом, зокрема для мультимодальних запитів. Хороший вибір, якщо не любите термінал.

llama.cpp напряму — для максимальної продуктивності й тонкого налаштування; саме тут найзручніше підключати офіційні QAT-кванти.

Важливе налаштування для Gemma 4: режим міркувань (thinking mode) увімкнений за замовчуванням і для простих задач лише сповільнює відповідь та витрачає відеопам’ять. Якщо вам потрібен швидкий чат або сумаризація, вимкніть його — в Ollama це робиться параметром think=false. Для складних логічних задач, навпаки, залиште ввімкненим.

Налаштування під себе: контекст, температура і API

Кілька параметрів, які варто підлаштувати під свої задачі.

Довжина контексту (num_ctx). Старші Gemma 4 тримають до 256K токенів, але Ollama за замовчуванням виділяє менше. Для довгих документів піднімайте num_ctx вручну — пам’ятаючи, що контекст витрачає відеопам’ять (KV-кеш), особливо при ввімкнених міркуваннях.
Температура. Загальноприйняті орієнтири спільноти: для коду та фактичних задач — 0.1–0.3, для вільного тексту — близько 0.7.
Системний промпт. Допомагає закріпити мову й стиль відповіді, що особливо корисно для української та російської. Із заувагою: Gemma 4 іноді слабко реагує на системні інструкції (див. розділ ризиків).
Режим міркувань — головний перемикач швидкості в Gemma 4; як ним керувати, описано в розділі про запуск вище.

Режим API. Ollama піднімає сервер на localhost:11434, сумісний із форматом OpenAI: підключайте редактори коду, ботів і власні скрипти, а для мультимодальних задач передавайте зображення прямо в запиті. Усі дані лишаються на вашому комп’ютері — у цьому й сенс локального запуску: приватність плюс відсутність плати за токени.

Українська і російська: 140+ мов

Gemma з самого початку багатомовна: і третє, і четверте покоління офіційно підтримують понад 140 мов, а під капотом використовують той самий токенізатор на 262 тисячі токенів, що й хмарний Gemini. Це виводить Gemma в число сильних відкритих моделей для української та російської — вона грамотно пише, перекладає й розуміє контекст цими мовами.

У прямому порівнянні найкращим відкритим вибором для слов’янських мов частіше називають Qwen3, але Gemma йде слідом і нерідко виграє там, де потрібна мультимодальність (наприклад, розібрати україномовний документ по фото). Практична порада та сама, що й для інших моделей: задавайте системний промпт із явним указанням мови — це стабілізує відповіді.

Бенчмарки й арена: де стоїть Gemma 4

За незалежними замірами Gemma 4 помітно додала. На відкритій арені LMArena, де моделі порівнюють наосліп живі користувачі, флагманська Gemma 4 31B трималася в районі 40–45-го місця з рейтингом близько 1451 (за даними LMArena на середину червня 2026 року) — високий результат для моделі, яку можна запустити на домашній карті 24 ГБ.

За профільними бенчмарками (за даними вторинних оглядів, квітень 2026): близько 89% на математичному AIME 2026, рейтинг Codeforces ELO порядку 2150 з програмування і 84% на науковому GPQA. Цифри варто сприймати як орієнтир — офіційні результати звіряйте в картці моделі, а арена швидко змінюється, тож перед важливим вибором перевірте поточну позицію.

Практичний висновок із бенчмарків: Gemma 4 особливо сильна в коді та математиці, що робить її хорошим локальним помічником розробника.

Gemma проти Qwen3, Llama і Mistral

«Найкращої моделі взагалі» не буває. Ось чесне порівняння Gemma з трьома головними суперниками в локальному сегменті (станом на червень 2026).

Критерій	Gemma 4	Qwen3	Llama	Mistral Small
Українська/російська	Добре	Найкращий	Середньо	Середньо
Мультимодальність	Сильна (фото, відео, аудіо)	Є варіанти	Vision	Обмежена
Ліцензія	Apache 2.0	Apache 2.0	Community	Apache 2.0
Під одну карту 24 ГБ	Відмінно (31B/27B)	Добре (32B)	70B лише з offload	Добре
Код і математика	Дуже добре	Дуже добре	Добре	Добре
QAT-кванти	Офіційні	Немає	Немає	Немає

Де Gemma об’єктивно попереду: мультимодальність, офіційні QAT-кванти і якість на одній споживчій карті. Де варто обрати інакше: для суто текстових задач слов’янськими мовами Qwen3 трохи сильніший, а для агентних сценаріїв (виклик інструментів) користувачі нерідко віддають перевагу Qwen.

Ризики й граблі

MoE не економить відеопам’ять. 26B-A4B швидка, але вантажить усі 26 млрд ваг (~14,4 ГБ) — на 8 ГБ не запуститься, попри «4B active».
Режим міркувань їсть пам’ять і час. У Gemma 4 thinking mode за замовчуванням увімкнений; на довгому контексті KV-кеш здатен зайняти всю відеопам’ять — на це скаржаться користувачі r/LocalLLaMA. Для простих задач вимикайте його параметром think=false.
Слабка реакція на системний промпт. За повідомленнями спільноти (r/LocalLLaMA, червень 2026), Gemma 4 26B-A4B іноді ігнорує системні промпти й неохоче викликає інструменти — враховуйте при побудові агентів.
Ліцензія Gemma 3. Якщо берете саме третє покоління для комерції, пам’ятайте про Gemma Terms of Use з правом Google обмежити використання. Для бізнесу безпечніша Gemma 4 на Apache 2.0.
Vision вимагає запасу пам’яті. Обробка зображень додає навантаження понад розмір моделі — закладайте відеопам’ять із запасом.
Перегрів за довгих сесій. Важкі моделі надовго навантажують відеокарту — стежте за температурами на компактних збірках.

FAQ

Яку Gemma обрати для відеокарти на 8 ГБ? Gemma 4 E4B (~4,5 ГБ) або 12B (~6,7 ГБ у Q4), або Gemma 3 4B — усі вміщуються у 8 ГБ і підтримують зображення. Якщо важлива максимальна якість у цій пам’яті, беріть офіційний QAT-квант. Моделі 26B-A4B і 31B на 8 ГБ не помістяться.

Чим Gemma 4 краща за Gemma 3? Головне — ліцензія Apache 2.0 замість обмежувальних умов Gemma 3, що знімає ризики для комерції. Плюс режим міркувань, вищі бенчмарки в коді та математиці, розширена мультимодальність (додалося аудіо) і контекст до 256K у старших моделей.

Що таке QAT-кванти і навіщо вони потрібні? Це офіційні стиснені версії Gemma, навчені з урахуванням квантизації. Вони займають приблизно втричі менше пам’яті, ніж вихідна модель, але зберігають якість, близьку до повного формату. Простіше кажучи — кращий результат за тієї самої відеопам’яті, ніж у звичайного GGUF-кванта.

Чи може Gemma розпізнавати текст на фото локально? Так. Мультимодальні версії Gemma 3 (від 4B) і Gemma 4 добре справляються з OCR — розпізнають текст зі сканів і фотографій документів прямо на вашому комп’ютері, без надсилання даних у хмару. Це один із найпопулярніших локальних сценаріїв Gemma.

Як вимкнути «міркування» Gemma 4, щоб вона відповідала швидше? В Ollama додайте параметр think=false — модель перестане витрачати час і пам’ять на покрокові міркування й відповідатиме одразу. Для простого чату й сумаризації це помітно прискорює роботу; для складних логічних задач режим краще повернути.

Gemma чи Qwen3 — що брати для української мови? Для суто текстових задач слов’янськими мовами Qwen3 зазвичай трохи сильніший, але Gemma йде слідом і виграє, коли потрібна мультимодальність — наприклад, розібрати україномовний документ по фотографії. Обидві підтримують українську й російську офіційно. Для агентних сценаріїв (виклик інструментів) користувачі нерідко віддають перевагу Qwen3 — Gemma 4 іноді примхлива із системними промптами.