Gemma локально: какую версию запустить и на чём

Коротко (TL;DR)

Gemma — семейство открытых моделей от Google DeepMind, построенное на той же технологии, что и облачный Gemini. Для локального запуска у Gemma репутация «лучшей модели, которая помещается на одну потребительскую видеокарту», и в 2026 году к этому добавился ещё один весомый аргумент.

Коротко (TL;DR)
Две генерации Gemma: 3 и 4
Сколько нужно железа: VRAM, кванты и скорость
QAT-кванты Google: почему они лучше обычных
MoE 26B-A4B: быстрая, но память не экономит
Мультимодальность: изображения, OCR и аудио
Лицензия: главная история Gemma
Запуск: Ollama, LM Studio, llama.cpp
Настройка под себя: контекст, температура и API
Русский и украинский: 140+ языков
Бенчмарки и арена: где стоит Gemma 4
Gemma против Qwen3, Llama и Mistral
Риски и грабли
FAQ

Две генерации. Актуальны обе: Gemma 3 (размеры 1B, 4B, 12B, 27B) — проверенная база с морем готовых квантов, и Gemma 4 (от компактных E2B/E4B до 31B и MoE-варианта 26B-A4B) — новое поколение апреля 2026 с режимом рассуждений и более высокими бенчмарками.
Главное изменение — лицензия. Gemma 3 шла под собственными условиями Google с правом ограничить использование, а Gemma 4 выпущена под свободной Apache 2.0. Это снимает юридический риск и делает её безопасной для коммерческих продуктов.
Сильные стороны: мультимодальность (модели видят изображения и хорошо распознают текст с фото), официальные QAT-кванты с экономией памяти и поддержка 140+ языков, включая уверенный русский и украинский.

Минимальное железо: компактные Gemma 4 E2B/E4B запускаются на 6 ГБ видеопамяти, флагманская 31B в кванте Q4 заходит в 24 ГБ, а с официальным QAT-квантом — ещё экономнее. Данные актуальны на 16 июня 2026 года.

Две генерации Gemma: 3 и 4

На середину 2026 года в ходу обе линейки. Понимать разницу важно, потому что от поколения зависят и возможности, и — что критично — лицензия.

Линейка	Размеры	Контекст	Мультимодальность	Лицензия	Дата
Gemma 3	1B, 4B, 12B, 27B	32K (1B) / 128K	Изображения (4B+)	Gemma Terms of Use	март 2025
Gemma 4	E2B, E4B, 12B, 26B-A4B (MoE), 31B	128K / 256K (12B/26B/31B)	Изображения, видео; аудио — E2B/E4B/12B	Apache 2.0	апрель 2026

Gemma 3 остаётся отличным выбором, если вам нужна стабильная модель с огромным числом готовых сборок — её 27B-версия в своё время вошла в топ открытых моделей под одну карту 24 ГБ. Gemma 4 — это шаг вперёд: добавился режим рассуждений (chain-of-thought), выросли бенчмарки, расширилась мультимодальность (теперь и аудио), а контекст у старших моделей дорос до 256K. Но главный практический сдвиг — лицензия, о которой отдельный разговор ниже.

Сколько нужно железа: VRAM, кванты и скорость

Как и другие локальные модели, Gemma запускают в квантованном виде (формат GGUF, ходовой квант Q4). Вот официальные требования Gemma 4 по видеопамяти (значения Google с учётом ~20% накладных расходов, квант Q4; данные docs на июнь 2026):

Видеопамять моделей Gemma 4 в кванте Q4 по объёму

Модель Gemma 4 (Q4)	VRAM	Комфортное железо	Скорость (ориентир)
E2B (~2B)	~2,9 ГБ	любая карта от 4 ГБ	~15+ tok/s
E4B (~4B)	~4,5 ГБ	6–8 ГБ (RTX 3050/3060)	~10+ tok/s и выше
12B	~6,7 ГБ	8–12 ГБ	высокая
26B-A4B (MoE)	~14,4 ГБ	16 ГБ и выше	~30+ tok/s
31B	~17,5 ГБ	24 ГБ (RTX 3090/4090)	до ~140 tok/s (RTX 5090)

Для Gemma 3 ориентиры близкие по размеру: 4B живёт на 8 ГБ, 12B — на 12–16 ГБ, а 27B комфортно заходит в 24 ГБ. Важная поправка, общая для всех моделей: к размеру весов добавляется память под контекст (KV-кэш), и у Gemma 4 в режиме рассуждений он разрастается особенно быстро — об этом в разделе про риски. Цифры скорости — ориентир и зависят от железа, кванта и контекста; свежие замеры сверяйте на странице модели в каталоге Ollama.

Если выбираете видеокарту под локальный ИИ, отталкивайтесь от объёма VRAM — подробный разбор в гиде по выбору GPU для ИИ.

QAT-кванты Google: почему они лучше обычных

Это наш information gain — деталь, которую почти не объясняют по-русски. Обычно модель сжимают «постфактум» (квантизация после обучения), и часть качества при этом теряется. Google пошла дальше и выпустила официальные QAT-кванты (quantization-aware training) — модели, обученные с учётом будущего сжатия.

Результат: int4-версия Gemma занимает примерно втрое меньше памяти, чем исходная, но сохраняет качество, близкое к полному формату bfloat16. На практике это значит, что QAT-вариант модели работает заметно точнее, чем такой же по размеру обычный GGUF-квант.

Где взять: официальные коллекции на Hugging Face — google/gemma-3-qat и google/gemma-4-qat-q4-0. Для llama.cpp ищите файлы с суффиксом -qat-q4_0-gguf. Если для вас важно выжать максимум качества из ограниченной видеопамяти — берите именно QAT-версию, а не первый попавшийся квант.

MoE 26B-A4B: быстрая, но память не экономит

У Gemma 4 есть модель на архитектуре «смеси экспертов» — 26B-A4B. В названии «A4B» означает, что на каждый токен активны лишь около 4 млрд параметров из 26 млрд. Это делает её быстрой (порядка 30+ токенов/с) и по качеству близкой к флагманской 31B — примерно 97% от неё.

Но здесь кроется типичная ловушка для новичка. «Активных 4B» не значит «нужно 4 ГБ». В память грузятся все 26 млрд весов — это около 14,4 ГБ в кванте Q4. MoE экономит вычисления и тем самым скорость, но не видеопамять: чтобы запустить 26B-A4B, нужна карта от 16 ГБ, а не 8. Если читали «4B active» и рассчитывали на свою 8-гигабайтную карту — увы, не поместится.

Мультимодальность: изображения, OCR и аудио

Одна из сильнейших сторон Gemma — работа не только с текстом. Модели Gemma 3 от 4B и выше, а также Gemma 4, умеют видеть изображения: опишут картинку, разберут диаграмму, извлекут текст с фотографии документа. Gemma 4 добавила работу с видео, а компактные E2B/E4B (и 12B) — ещё и с аудио.

Особенно ценный для практики сценарий — локальный OCR: распознавание текста с фото и сканов. В сообществе r/LocalLLaMA Gemma регулярно называют одной из лучших открытых моделей для этой задачи. Главный плюс перед облачными сервисами — приватность: сканы паспортов, договоров и медицинских документов не покидают ваш компьютер.

Запустить мультимодальную модель просто: в Ollama и LM Studio достаточно прикрепить изображение к запросу — модель сама поймёт, что с ним работать. Учтите только, что обработка картинки требует дополнительной видеопамяти сверх размера самой модели.

Лицензия: главная история Gemma

Здесь — ключевой сюжет, который большинство обзоров упускают, а для нашей аудитории он самый практичный.

Gemma 3 распространялась под собственными условиями Google — Gemma Terms of Use. Это не открытая лицензия в полном смысле: Google оставляла за собой право дистанционно ограничивать использование модели и накладывала ряд запретов на сценарии применения. Для пет-проекта неважно, но для бизнеса это был юридический риск — на него прямо обращали внимание профильные издания при выходе Gemma 3.

Gemma 4 выпущена под Apache 2.0 — одной из самых свободных лицензий. Никаких порогов, права на дистанционное ограничение и запретов на коммерцию: модель можно встраивать в продукты, модифицировать и распространять свободно.

Модель	Лицензия	Коммерция	Особенности
Gemma 3	Gemma Terms of Use	С ограничениями	Google вправе ограничить использование
Gemma 4	Apache 2.0	Свободно	Без порогов и ограничений
Llama 4	Llama Community	До 700 млн MAU	Запрет обучать другие модели

Вывод простой: если строите коммерческий продукт, берите Gemma 4 — с её Apache 2.0 вы юридически чисты. На фоне Gemma 3 и Llama это серьёзное преимущество.

Запуск: Ollama, LM Studio, llama.cpp

Самый простой путь — Ollama. Команды (проверено по каталогу Ollama, июнь 2026):

ollama run gemma3:4b      # лёгкая, 8 ГБ, мультимодальная
ollama run gemma3:12b     # средний класс
ollama run gemma3:27b     # флагман Gemma 3 на 24 ГБ
ollama run gemma4:e4b     # компактная Gemma 4, 6 ГБ
ollama run gemma4:12b     # Gemma 4 средний класс
ollama run gemma4         # флагман 31B (~17,5 ГБ, карта 24 ГБ); для 8 ГБ берите gemma4:e4b

Ollama сразу поднимает локальный API, совместимый с форматом OpenAI, — удобно для подключения к редакторам кода и ботам.

LM Studio — графический интерфейс с каталогом моделей и удобным просмотром, в том числе для мультимодальных запросов. Хороший выбор, если не любите терминал.

llama.cpp напрямую — для максимальной производительности и тонкой настройки; именно здесь удобнее всего подключать официальные QAT-кванты.

Важная настройка для Gemma 4: режим рассуждений (thinking mode) включён по умолчанию и для простых задач только замедляет ответ и расходует видеопамять. Если вам нужен быстрый чат или суммаризация, отключите его — в Ollama это делается параметром think=false. Для сложных логических задач, наоборот, оставьте включённым.

Настройка под себя: контекст, температура и API

Несколько параметров, которые стоит подстроить под свои задачи.

Длина контекста (num_ctx). Старшие Gemma 4 держат до 256K токенов, но Ollama по умолчанию выделяет меньше. Для длинных документов поднимайте num_ctx вручную — помня, что контекст расходует видеопамять (KV-кэш), особенно при включённых рассуждениях.
Температура. Общепринятые ориентиры сообщества: для кода и фактических задач — 0.1–0.3, для свободного текста — около 0.7.
Системный промпт. Помогает закрепить язык и стиль ответа, что особенно полезно для русского и украинского. С оговоркой: Gemma 4 иногда слабо реагирует на системные инструкции (см. раздел рисков).
Режим рассуждений — главный переключатель скорости у Gemma 4; как им управлять, описано в разделе про запуск выше.

Режим API. Ollama поднимает сервер на localhost:11434, совместимый с форматом OpenAI: подключайте редакторы кода, ботов и собственные скрипты, а для мультимодальных задач передавайте изображение прямо в запросе. Все данные остаются на вашем компьютере — в этом и смысл локального запуска: приватность плюс отсутствие платы за токены.

Русский и украинский: 140+ языков

Gemma изначально многоязычна: и третье, и четвёртое поколение официально поддерживают более 140 языков, а под капотом используют тот же токенизатор на 262 тысячи токенов, что и облачный Gemini. Это выводит Gemma в число сильных открытых моделей для русского и украинского — она грамотно пишет, переводит и понимает контекст на этих языках.

В прямом сравнении лучшим открытым выбором для русского чаще называют Qwen3, но Gemma идёт следом и нередко выигрывает там, где нужна мультимодальность (например, разобрать русскоязычный документ по фото). Практический совет тот же, что и для других моделей: задавайте системный промпт с явным указанием языка — это стабилизирует ответы.

Бенчмарки и арена: где стоит Gemma 4

По независимым замерам Gemma 4 заметно прибавила. На открытой арене LMArena, где модели сравнивают вслепую живые пользователи, флагманская Gemma 4 31B держалась в районе 40–45-го места с рейтингом около 1451 (по данным LMArena на середину июня 2026 года) — высокий результат для модели, которую можно запустить на домашней карте 24 ГБ.

По профильным бенчмаркам (по данным вторичных обзоров, апрель 2026): около 89% на математическом AIME 2026, рейтинг Codeforces ELO порядка 2150 по программированию и 84% на научном GPQA. Цифры стоит воспринимать как ориентир — официальные результаты сверяйте в карточке модели, а арена быстро меняется, так что перед важным выбором проверьте текущую позицию.

Практический вывод из бенчмарков: Gemma 4 особенно сильна в коде и математике, что делает её хорошим локальным помощником разработчика.

Gemma против Qwen3, Llama и Mistral

«Лучшей модели вообще» не бывает. Вот честное сравнение Gemma с тремя главными соперниками в локальном сегменте (по состоянию на июнь 2026).

Критерий	Gemma 4	Qwen3	Llama	Mistral Small
Русский/украинский	Хорошо	Лучший	Средне	Средне
Мультимодальность	Сильная (фото, видео, аудио)	Есть варианты	Vision	Ограниченная
Лицензия	Apache 2.0	Apache 2.0	Community	Apache 2.0
Под одну карту 24 ГБ	Отлично (31B/27B)	Хорошо (32B)	70B только с offload	Хорошо
Код и математика	Очень хорошо	Очень хорошо	Хорошо	Хорошо
QAT-кванты	Официальные	Нет	Нет	Нет

Где Gemma объективно впереди: мультимодальность, официальные QAT-кванты и качество на одной потребительской карте. Где стоит выбрать иначе: для чисто текстовых задач на русском Qwen3 чуть сильнее, а для агентных сценариев (вызов инструментов) пользователи нередко предпочитают Qwen.

Риски и грабли

MoE не экономит видеопамять. 26B-A4B быстрая, но грузит все 26 млрд весов (~14,4 ГБ) — на 8 ГБ не запустится, несмотря на «4B active».
Режим рассуждений ест память и время. У Gemma 4 thinking mode по умолчанию включён; на длинном контексте KV-кэш способен занять всю видеопамять — на это жалуются пользователи r/LocalLLaMA. Для простых задач отключайте его параметром think=false.
Слабая реакция на системный промпт. По сообщениям сообщества (r/LocalLLaMA, июнь 2026), Gemma 4 26B-A4B иногда игнорирует системные промпты и неохотно вызывает инструменты — учитывайте при построении агентов.
Лицензия Gemma 3. Если берёте именно третье поколение для коммерции, помните про Gemma Terms of Use с правом Google ограничить использование. Для бизнеса безопаснее Gemma 4 на Apache 2.0.
Vision требует запаса памяти. Обработка изображений добавляет нагрузку сверх размера модели — закладывайте видеопамять с запасом.
Перегрев при долгих сессиях. Тяжёлые модели надолго нагружают видеокарту — следите за температурами на компактных сборках.

FAQ

Какую Gemma выбрать для видеокарты на 8 ГБ? Gemma 4 E4B (~4,5 ГБ) или 12B (~6,7 ГБ в Q4), либо Gemma 3 4B — все умещаются в 8 ГБ и поддерживают изображения. Если важно максимальное качество в этой памяти, берите официальный QAT-квант. Модели 26B-A4B и 31B на 8 ГБ не поместятся.

Чем Gemma 4 лучше Gemma 3? Главное — лицензия Apache 2.0 вместо ограничительных условий Gemma 3, что снимает риски для коммерции. Плюс режим рассуждений, более высокие бенчмарки в коде и математике, расширенная мультимодальность (добавилось аудио) и контекст до 256K у старших моделей.

Что такое QAT-кванты и зачем они нужны? Это официальные сжатые версии Gemma, обученные с учётом квантизации. Они занимают примерно втрое меньше памяти, чем исходная модель, но сохраняют качество, близкое к полному формату. Проще говоря — лучший результат при той же видеопамяти, чем у обычного GGUF-кванта.

Может ли Gemma распознавать текст на фото локально? Да. Мультимодальные версии Gemma 3 (от 4B) и Gemma 4 хорошо справляются с OCR — распознают текст со сканов и фотографий документов прямо на вашем компьютере, без отправки данных в облако. Это один из самых популярных локальных сценариев Gemma.

Как отключить «размышления» Gemma 4, чтобы она отвечала быстрее? В Ollama добавьте параметр think=false — модель перестанет тратить время и память на пошаговые рассуждения и будет отвечать сразу. Для простого чата и суммаризации это заметно ускоряет работу; для сложных логических задач режим лучше вернуть.

Gemma или Qwen3 — что брать для русского языка? Для чисто текстовых задач на русском Qwen3 обычно чуть сильнее, но Gemma идёт следом и выигрывает, когда нужна мультимодальность — например, разобрать русскоязычный документ по фотографии. Обе поддерживают русский и украинский официально. Для агентных сценариев (вызов инструментов) пользователи нередко предпочитают Qwen3 — Gemma 4 иногда капризна с системными промптами.