Phi-4 локально: малая модель, что бьёт крупнее

Коротко (TL;DR)

Phi-4 от Microsoft — модель, которая ломает интуицию «больше параметров — умнее». При скромных 14 млрд параметров она обходит куда более крупную GPT-4o в задачах на рассуждение, математику и науку. Секрет — не в размере, а в качестве обучающих данных. Для локального запуска это идеальная история: топовый STEM-уровень на видеокарте за 8–9 ГБ.

Коротко (TL;DR)
Линейка Phi-4: от mini до reasoning-vision
Секрет: почему 14B бьёт гигантов — «учебники вместо интернета»
Phi-4-multimodal: зрение и слух
Сколько нужно железа: VRAM, кванты и скорость
Бенчмарки: где Phi-4 впереди, а где честно позади
Контекст-парадокс и «только для математики»
Запуск: Ollama, LM Studio, llama.cpp
Настройка под себя: контекст, RAG и API
Русский и украинский: честно слабое место
Phi-4 против Qwen3, Gemma и Llama
Когда брать Phi-4, а когда нет
Риски и грабли
FAQ

Малая, но сильная в логике. Phi-4 14B набирает 56,1 на научном тесте GPQA против 50,6 у GPT-4o и 80,4 на математическом MATH против 74,6 (по техническому отчёту Microsoft). Это лучший «разум на гигабайт» среди открытых моделей.
Скромное железо. В кванте Q4 модель занимает около 8–9 ГБ и запускается на видеокарте уровня RTX 3060. Лицензия — свободная MIT.
Но это не энциклопедия. Phi-4 училась «по учебникам», а не по всему интернету, поэтому на фактических вопросах («кто написал такую-то книгу») часто ошибается. И контекст у базовой версии всего 16K токенов — меньше, чем у конкурентов.

Честный вывод для нашей аудитории: Phi-4 — узкий специалист по рассуждению и STEM, а не универсал. Для русского и украинского текста она слабее Qwen3 и Gemma. Данные актуальны на 16 июня 2026 года.

Линейка Phi-4: от mini до reasoning-vision

«Phi-4» — это не одна модель, а целое семейство под разные задачи. Phi-5, к слову, на середину 2026 года ещё не вышел, так что Phi-4 остаётся актуальной линейкой Microsoft.

Модель	Параметры	Контекст	Особенность	Дата
Phi-4-mini	3,8 млрд	128K	Самая лёгкая, длинный контекст	февраль 2025
Phi-4-multimodal	5,6 млрд	128K	Текст + изображения + аудио	февраль 2025
Phi-4 (базовая)	14 млрд	16K	Флагман по reasoning/STEM	декабрь 2024
Phi-4-reasoning / plus	14 млрд	32K	Заточена под математику	апрель 2025
Phi-4-reasoning-vision	15 млрд	—	Зрение + адаптивные рассуждения	март 2026

Для большинства задач выбор такой: Phi-4 14B — если нужен максимум логики и STEM на одной карте; Phi-4-mini — если железо совсем скромное или нужен длинный контекст (у неё, что любопытно, окно больше, чем у старшей 14B); Phi-4-multimodal — если нужно работать с картинками и звуком. Версии reasoning — специализированные, о них подробнее ниже.

Секрет: почему 14B бьёт гигантов — «учебники вместо интернета»

Это главный information gain статьи. Обычно качество модели растёт с размером и объёмом данных из интернета. Microsoft пошла другим путём: около 40% обучающих данных Phi-4 — это синтетические «учебниковые» материалы, специально сгенерированные и отобранные для обучения рассуждению, а не сырой веб.

Аналогия простая: одну модель учили «по всему интернету подряд», а Phi-4 — «по тщательно составленным учебникам». В результате при том же числе параметров Phi-4 рассуждает заметно лучше — она тренировалась именно на качественных примерах решения задач, а не на случайных текстах.

У этого подхода есть оборотная сторона, о которой — отдельный честный раздел: модель, выучившая «учебник по физике», хуже помнит случайные факты из «энциклопедии». Но для задач, где нужна логика, а не эрудиция, приём работает блестяще — и именно он позволяет 14-миллиардной модели обходить гигантов.

Конкретный эффект виден на контрасте задач. Дайте Phi-4 олимпиадную задачу по математике или логическую головоломку — и она часто решит её на уровне моделей в несколько раз крупнее, потому что именно этому её и учили. Но спросите дату рождения малоизвестной исторической фигуры или сюжет редкого фильма — и она с большой вероятностью ошибётся: таких «случайных» фактов в её тщательно отобранных учебниках просто не было. Это не делает модель хуже — это делает её другой: инструментом для рассуждения, а не справочником.

Phi-4-multimodal: зрение и слух

Отдельного внимания заслуживает Phi-4-multimodal — версия на 5,6 млрд параметров, которая работает не только с текстом, но и с изображениями и звуком одновременно. Это редкое сочетание для такой компактной модели: она умеет описать картинку, разобрать диаграмму или график, распознать текст с фотографии, а также обработать аудио — например, расшифровать речь или ответить на вопрос по звуковому фрагменту.

При своих 5,6 млрд параметров и контексте 128K она остаётся лёгкой — запускается на видеокарте среднего класса, — но закрывает сразу несколько сценариев, для которых обычно нужны отдельные специализированные модели. Для локального помощника, который должен и читать документы с фото, и работать с голосом, и при этом не требовать мощного железа, Phi-4-multimodal — один из самых экономных вариантов. Учтите общий для мультимодальных моделей нюанс: обработка изображения или звука требует дополнительной видеопамяти сверх размера самой модели.

Сколько нужно железа: VRAM, кванты и скорость

Phi-4 нетребовательна — это часть её привлекательности. Как обычно, модель запускают в квантованном виде (формат GGUF).

Phi-4 14B против GPT-4o: результаты на STEM-бенчмарках в процентах

Формат Phi-4 14B	VRAM	Железо	Скорость
Q4 (INT4 / Q4_0)	~8–9 ГБ	RTX 3060 8 ГБ и выше	высокая (зависит от GPU)*
GPTQ 4-bit (vLLM)	~11 ГБ	RTX 3060 12 ГБ / 4070	высокая
FP16 (без сжатия)	~32 ГБ	проф. карта / 2 GPU	эталон качества

*Конкретные tok/s сильно зависят от карты: на профессиональной RTX PRO 4500 Blackwell (32 ГБ GDDR7) Phi-4 14B в Q4 выдаёт около 75 токенов/с (замер сообщества, июнь 2026); на RTX 3060 заметно меньше. Размеры файлов — по каталогу Ollama; свежие замеры сверяйте там же.

Главный вывод: топовый по рассуждению Phi-4 заходит на видеокарту уровня RTX 3060 (8–9 ГБ в Q4) — это один из самых доступных способов получить сильную STEM-модель локально. Маленькая Phi-4-mini (3,8 млрд) и вовсе занимает около 2,5 ГБ (по каталогу Ollama) и работает даже на слабом железе.

Если выбираете видеокарту под локальный ИИ, отталкивайтесь от объёма VRAM — подробный разбор в гиде по выбору GPU для ИИ.

Бенчмарки: где Phi-4 впереди, а где честно позади

Сила Phi-4 — рассуждение и STEM, и здесь цифры впечатляют (по техническому отчёту Microsoft, декабрь 2024):

GPQA (наука уровня аспирантуры): 56,1 — выше, чем у GPT-4o (50,6).
MATH (олимпиадная математика): 80,4 — снова выше GPT-4o (74,6).
Phi-4-reasoning на сложном AIME 2024 берёт 75,3, а версия plus — 81,3 (по карточке модели на Hugging Face, апрель 2025).

А теперь честная вторая сторона, которую большинство обзоров замалчивают. На тесте фактических знаний SimpleQA Phi-4 набирает всего 3,0 из 100. Это не баг — это следствие «учебникового» обучения: модель отлично решает задачи, но плохо помнит факты вроде «кто написал конкретный роман». Вывод практический: для фактических вопросов Phi-4 нужно подключать к базе знаний (RAG) или поиску — сама по себе она не энциклопедия.

Эта пара цифр — GPQA 56 и SimpleQA 3 — лучше всего описывает характер Phi-4. Она не «знает меньше», она устроена иначе: блестяще работает с тем, что вы ей дали, и слаба там, где нужно вспоминать факты из ниоткуда. Для разработчика или студента, который и так подкладывает модели нужный контекст (код, условие задачи, документ), это идеальный профиль; для замены поисковика или Википедии — нет. Понимание этого различия экономит часы разочарования: к Phi-4 не идут с вопросом «расскажи мне про X», к ней идут с задачей «реши, разбери, выведи».

Контекст-парадокс и «только для математики»

Два нюанса, на которых легко обжечься.

Парадокс контекста. Логично ожидать, что у более мощной модели и окно контекста больше. У Phi-4 наоборот: базовая 14B держит лишь 16K токенов, а маленькая Phi-4-mini — целых 128K. Так что если вам нужно скармливать модели длинные документы, «старшая» 14B-версия — не лучший выбор; берите mini или конкурента с большим окном. Это контринтуитивно, и об этом редко предупреждают.

Reasoning — официально только для математики. Версии Phi-4-reasoning Microsoft прямо в карточке модели помечает как предназначенные и протестированные только для математических рассуждений. Использовать их для написания текстов или ответов на общие вопросы — за пределами зоны поддержки. И ещё тонкость: по данным исследования (arXiv, апрель 2026), reasoning-версия резко теряет качество, если давать ей примеры в промпте (few-shot) — ставьте задачу напрямую, без образцов.

Запуск: Ollama, LM Studio, llama.cpp

Самый простой путь — Ollama (проверено по каталогу Ollama, июнь 2026):

ollama run phi4              # базовая 14B, STEM и логика
ollama run phi4-mini         # лёгкая 3.8B, длинный контекст
ollama run phi4-reasoning    # заточена под математику
ollama run phi4-reasoning:plus  # максимум по математике (AIME 81,3)

Ollama сразу поднимает локальный API, совместимый с форматом OpenAI, — удобно для подключения к редакторам кода и ботам.

LM Studio — графический интерфейс с каталогом моделей; в сообществе хвалят Q8-вариант Phi-4 от Unsloth для систем с ограниченной памятью. Хороший выбор, если не любите терминал.

llama.cpp напрямую — для тонкой настройки и максимальной производительности на конкретном железе; ключевой параметр здесь — --n-gpu-layers (сколько слоёв модели вынести на видеокарту).

Типовые ошибки и решения:

CUDA out of memory — модель не влезла в видеопамять: возьмите квант поменьше (Q4 вместо Q8) или закройте приложения, занимающие VRAM.
Ошибка при ollama pull — чаще всего не хватает места на диске: проверьте свободное пространство перед загрузкой.
Модель обрывает длинный ответ — упёрлись в контекст 16K: сократите запрос или перейдите на Phi-4-mini с окном 128K.
Медленная генерация — модель считается на процессоре, а не на GPU: проверьте командой ollama ps, на чём идёт инференс.

Совет по настройке: учитывая контекст всего 16K у базовой версии, держите запросы компактными и не пытайтесь скормить ей огромные документы целиком — для этого берите Phi-4-mini с её окном 128K.

Настройка под себя: контекст, RAG и API

Несколько практических моментов.

Контекст (num_ctx). У базовой Phi-4 окно всего 16K — этого хватает для задач и диалога, но не для длинных документов. Не пытайтесь задать в Ollama больше, чем поддерживает модель; нужен длинный контекст — переходите на Phi-4-mini (128K).
RAG для фактов. Поскольку Phi-4 слаба в фактической памяти, для вопросов «что/кто/когда» подключайте её к базе знаний или поиску: модель отлично рассуждает над переданным ей текстом, даже если сам факт не помнит. Это превращает её слабость в управляемое ограничение.
Температура. Для математики, кода и логики ставьте низкую (0.1–0.3) — рассуждению не нужна «творческость». Это общепринятые ориентиры сообщества.
Без few-shot для reasoning. Reasoning-версиям не давайте примеры в промпте — формулируйте задачу напрямую.

Режим API. Ollama поднимает сервер на localhost:11434 в формате OpenAI: подключайте Phi-4 к редакторам кода, агентам и скриптам. Для локального STEM-помощника в связке с RAG это рабочая и приватная конфигурация — данные не покидают компьютер, а за токены платить не нужно.

Русский и украинский: честно слабое место

Здесь Phi-4 проигрывает, и об этом нужно сказать прямо. Microsoft в карточке модели прямо заявляет, что Phi-4 не предназначена для мультиязычного использования: доля неанглийских данных в обучении — всего около 8%. Это видно и по цифрам: на многоязычном тесте MMLU маленькая Phi-4-mini набирает 49,3 против 64,4 у сопоставимой по размеру Qwen2.5-7B.

На практике это значит: простые запросы на русском Phi-4 поймёт и ответит, но в нюансированном тексте, аргументации и фактических вопросах на русском или украинском она заметно уступает. Если язык — главное в вашей задаче (перевод, копирайтинг, диалог на русском), берите Qwen3 или Gemma. Phi-4 же раскрывается там, где задача — логика, математика и код, а язык общения преимущественно английский.

Phi-4 против Qwen3, Gemma и Llama

«Лучшей модели вообще» не бывает. Вот честное сравнение Phi-4 14B с тремя соперниками в локальном сегменте (по состоянию на июнь 2026).

Критерий	Phi-4	Qwen3	Gemma 4	Llama
Размер	14B (лёгкая)	8–32B	12–31B	8–70B
Рассуждение / STEM	Очень сильно	Сильно	Сильно	Средне
Русский/украинский	Слабо	Лучший	Хорошо	Средне
Контекст (база)	16K	128K	128–256K	128K
Фактическая память	Слабо (нужен RAG)	Хорошо	Хорошо	Хорошо
Лицензия	MIT	Apache 2.0	Apache 2.0	Community

Где Phi-4 объективно впереди: рассуждение и STEM на минимальном железе — по соотношению «качество логики на гигабайт VRAM» ей мало равных. Где стоит выбрать иначе: для русского, длинного контекста и фактических задач сильнее Qwen3 и Gemma.

Когда брать Phi-4, а когда нет

Берите Phi-4, если:

ваша задача — математика, логика, рассуждение или код, а не эрудиция;
железо скромное (8–12 ГБ VRAM), а хочется качество уровня крупных моделей;
нужен локальный STEM-помощник для учёбы или разработки на английском;
важна свободная лицензия MIT для коммерческого продукта.

Выберите альтернативу, если:

главное — грамотный русский или украинский: берите Qwen3 или Gemma;
нужны длинные документы (контекст 16K у базовой Phi-4 мал) — берите Phi-4-mini или конкурента;
нужна фактическая эрудиция без RAG — Phi-4 не энциклопедия.

Риски и грабли

Не энциклопедия (главный нюанс). SimpleQA = 3 из 100: на фактических вопросах Phi-4 часто ошибается. Для таких задач обязателен RAG или поиск — модель сильна в логике, а не в памяти фактов.
Контекст 16K у базовой версии. Меньше, чем у mini (128K) и у конкурентов. Длинные документы целиком не поместятся.
Слабый русский и украинский. Модель официально не для мультиязычности — для кириллицы есть варианты получше.
Reasoning — только математика. Версии Phi-4-reasoning Microsoft поддерживает только для матзадач; не используйте их как универсальный чат.
Few-shot вредит reasoning. Примеры в промпте резко роняют качество reasoning-версий — ставьте задачу напрямую.
Критика «переобучения». Ранние модели Phi упрекали в подгонке под бенчмарки. В Phi-4 Microsoft усилила очистку данных и в качестве проверки прогнала модель на свежих олимпиадах AMC-10 и AMC-12 (ноябрь 2024), которых не было в обучении, — результаты совпали с бенчмарками. Это весомый контраргумент, но рекордные цифры всё равно проверяйте на своих задачах.
Перегрев при долгих сессиях. Длительная нагрузка греет видеокарту — следите за температурами на компактных сборках.

FAQ

Какая видеокарта нужна для Phi-4? Базовая Phi-4 14B в кванте Q4 занимает около 8–9 ГБ и работает на видеокарте уровня RTX 3060. Маленькая Phi-4-mini (3,8 млрд) умещается в 3–4 ГБ и пойдёт даже на слабом железе. Для полного формата FP16 нужно порядка 32 ГБ.

Правда ли, что Phi-4 обходит GPT-4o? В задачах на рассуждение и STEM — да: по тестам GPQA (56,1 против 50,6) и MATH (80,4 против 74,6) Phi-4 14B опережает гораздо более крупную GPT-4o. Но это касается именно логики и математики; в фактических знаниях и многих других задачах GPT-4o сильнее.

Почему Phi-4 ошибается в простых фактах? Потому что её учили преимущественно на синтетических «учебниковых» данных, а не на всём интернете. Она отлично решает задачи, но плохо помнит случайные факты (тест SimpleQA — всего 3 из 100). Для фактических вопросов подключайте к ней базу знаний или поиск (RAG).

Подходит ли Phi-4 для русского языка? Слабо. Microsoft официально не позиционирует Phi-4 как мультиязычную модель — неанглийских данных в обучении всего около 8%. Простые запросы она поймёт, но для качественного русского или украинского текста лучше взять Qwen3 или Gemma.

Какую версию Phi-4 выбрать для длинных документов? Phi-4-mini: несмотря на меньший размер (3,8 млрд против 14), у неё окно контекста 128K против всего 16K у базовой 14B-версии. Это тот случай, когда младшая модель подходит для длинного текста лучше старшей.

Сколько места на диске займёт Phi-4? Базовая 14B в кванте Q4 — около 9 ГБ, mini — порядка 2,5 ГБ (по каталогу Ollama), multimodal — несколько гигабайт (точный размер уточните в каталоге Ollama). Закладывайте запас под несколько версий. Ollama хранит скачанные модели в своей папке и подгружает нужную при запуске.

Чем Phi-4-reasoning отличается от обычной Phi-4? Reasoning-версия дообучена специально под математические рассуждения и держит больший контекст (32K против 16K), показывая высокие результаты на олимпиадных тестах вроде AIME. Но Microsoft поддерживает её только для матзадач — как универсальный чат или для написания текстов она не предназначена. Для общих задач берите базовую Phi-4.