Phi-4 локально: мала модель, що б'є більших

Коротко (TL;DR)

Phi-4 від Microsoft — модель, яка ламає інтуїцію «більше параметрів — розумніше». За скромних 14 млрд параметрів вона обходить значно більшу GPT-4o в задачах на міркування, математику й науку. Секрет — не в розмірі, а в якості навчальних даних. Для локального запуску це ідеальна історія: топовий STEM-рівень на відеокарті за 8–9 ГБ.

Коротко (TL;DR)
Лінійка Phi-4: від mini до reasoning-vision
Секрет: чому 14B б’є гігантів — «підручники замість інтернету»
Phi-4-multimodal: зір і слух
Скільки потрібно заліза: VRAM, кванти і швидкість
Бенчмарки: де Phi-4 попереду, а де чесно позаду
Контекст-парадокс і «тільки для математики»
Запуск: Ollama, LM Studio, llama.cpp
Налаштування під себе: контекст, RAG і API
Українська і російська: чесно слабке місце
Phi-4 проти Qwen3, Gemma і Llama
Коли брати Phi-4, а коли ні
Ризики й граблі
FAQ

Мала, але сильна в логіці. Phi-4 14B набирає 56,1 на науковому тесті GPQA проти 50,6 у GPT-4o і 80,4 на математичному MATH проти 74,6 (за технічним звітом Microsoft). Це найкращий «розум на гігабайт» серед відкритих моделей.
Скромне залізо. У кванті Q4 модель займає близько 8–9 ГБ і запускається на відеокарті рівня RTX 3060. Ліцензія — вільна MIT.
Але це не енциклопедія. Phi-4 училася «за підручниками», а не за всім інтернетом, тому на фактичних питаннях («хто написав таку-то книжку») часто помиляється. І контекст у базової версії всього 16K токенів — менше, ніж у конкурентів.

Чесний висновок для нашої аудиторії: Phi-4 — вузький спеціаліст із міркування та STEM, а не універсал. Для української та російської вона слабша за Qwen3 і Gemma. Дані актуальні на 16 червня 2026 року.

Лінійка Phi-4: від mini до reasoning-vision

«Phi-4» — це не одна модель, а ціле сімейство під різні задачі. Phi-5, до речі, на середину 2026 року ще не вийшов, тож Phi-4 лишається актуальною лінійкою Microsoft.

Модель	Параметри	Контекст	Особливість	Дата
Phi-4-mini	3,8 млрд	128K	Найлегша, довгий контекст	лютий 2025
Phi-4-multimodal	5,6 млрд	128K	Текст + зображення + аудіо	лютий 2025
Phi-4 (базова)	14 млрд	16K	Флагман за reasoning/STEM	грудень 2024
Phi-4-reasoning / plus	14 млрд	32K	Заточена під математику	квітень 2025
Phi-4-reasoning-vision	15 млрд	—	Зір + адаптивні міркування	березень 2026

Для більшості задач вибір такий: Phi-4 14B — якщо потрібен максимум логіки та STEM на одній карті; Phi-4-mini — якщо залізо зовсім скромне або потрібен довгий контекст (у неї, що цікаво, вікно більше, ніж у старшої 14B); Phi-4-multimodal — якщо потрібно працювати з картинками та звуком. Версії reasoning — спеціалізовані, про них докладніше нижче.

Секрет: чому 14B б’є гігантів — «підручники замість інтернету»

Це головний information gain статті. Зазвичай якість моделі зростає з розміром та обсягом даних з інтернету. Microsoft пішла іншим шляхом: близько 40% навчальних даних Phi-4 — це синтетичні «підручникові» матеріали, спеціально згенеровані й відібрані для навчання міркуванню, а не сирий веб.

Аналогія проста: одну модель учили «за всім інтернетом поспіль», а Phi-4 — «за ретельно складеними підручниками». У результаті за того самого числа параметрів Phi-4 міркує помітно краще — вона тренувалася саме на якісних прикладах розв’язання задач, а не на випадкових текстах.

У цього підходу є зворотний бік, про який — окремий чесний розділ: модель, що вивчила «підручник із фізики», гірше пам’ятає випадкові факти з «енциклопедії». Але для задач, де потрібна логіка, а не ерудиція, прийом працює блискуче — і саме він дозволяє 14-мільярдній моделі обходити гігантів.

Конкретний ефект видно на контрасті задач. Дайте Phi-4 олімпіадну задачу з математики або логічну головоломку — і вона часто розв’яже її на рівні моделей у кілька разів більших, бо саме цьому її й учили. Але спитайте дату народження маловідомої історичної постаті або сюжет рідкісного фільму — і вона з великою ймовірністю помилиться: таких «випадкових» фактів у її ретельно відібраних підручниках просто не було. Це не робить модель гіршою — це робить її іншою: інструментом для міркування, а не довідником.

Phi-4-multimodal: зір і слух

Окремої уваги заслуговує Phi-4-multimodal — версія на 5,6 млрд параметрів, яка працює не лише з текстом, а й із зображеннями та звуком одночасно. Це рідкісне поєднання для такої компактної моделі: вона вміє описати картинку, розібрати діаграму чи графік, розпізнати текст із фотографії, а також обробити аудіо — наприклад, розшифрувати мовлення або відповісти на питання за звуковим фрагментом.

За своїх 5,6 млрд параметрів і контексту 128K вона лишається легкою — запускається на відеокарті середнього класу, — але закриває одразу кілька сценаріїв, для яких зазвичай потрібні окремі спеціалізовані моделі. Для локального помічника, який має й читати документи з фото, й працювати з голосом, і при цьому не вимагати потужного заліза, Phi-4-multimodal — один із найекономніших варіантів. Урахуйте загальний для мультимодальних моделей нюанс: обробка зображення чи звуку вимагає додаткової відеопам’яті понад розмір самої моделі.

Скільки потрібно заліза: VRAM, кванти і швидкість

Phi-4 невибаглива — це частина її привабливості. Як зазвичай, модель запускають у квантованому вигляді (формат GGUF).

Phi-4 14B проти GPT-4o: результати на STEM-бенчмарках у відсотках

Формат Phi-4 14B	VRAM	Залізо	Швидкість
Q4 (INT4 / Q4_0)	~8–9 ГБ	RTX 3060 8 ГБ і вище	висока (залежить від GPU)*
GPTQ 4-bit (vLLM)	~11 ГБ	RTX 3060 12 ГБ / 4070	висока
FP16 (без стиснення)	~32 ГБ	проф. карта / 2 GPU	еталон якості

*Конкретні tok/s сильно залежать від карти: на професійній RTX PRO 4500 Blackwell (32 ГБ GDDR7) Phi-4 14B у Q4 видає близько 75 токенів/с (замір спільноти, червень 2026); на RTX 3060 помітно менше. Розміри файлів — за каталогом Ollama; свіжі заміри звіряйте там же.

Головний висновок: топовий за міркуванням Phi-4 заходить на відеокарту рівня RTX 3060 (8–9 ГБ у Q4) — це один із найдоступніших способів отримати сильну STEM-модель локально. Маленька Phi-4-mini (3,8 млрд) і зовсім займає близько 2,5 ГБ (за каталогом Ollama) і працює навіть на слабкому залізі.

Якщо обираєте відеокарту під локальний ШІ, відштовхуйтеся від обсягу VRAM — докладний розбір у гіді з вибору GPU для ШІ.

Бенчмарки: де Phi-4 попереду, а де чесно позаду

Сила Phi-4 — міркування та STEM, і тут цифри вражають (за технічним звітом Microsoft, грудень 2024):

GPQA (наука рівня аспірантури): 56,1 — вище, ніж у GPT-4o (50,6).
MATH (олімпіадна математика): 80,4 — знову вище GPT-4o (74,6).
Phi-4-reasoning на складному AIME 2024 бере 75,3, а версія plus — 81,3 (за карткою моделі на Hugging Face, квітень 2025).

А тепер чесна друга сторона, яку більшість оглядів замовчує. На тесті фактичних знань SimpleQA Phi-4 набирає всього 3,0 зі 100. Це не баг — це наслідок «підручникового» навчання: модель чудово розв’язує задачі, але погано пам’ятає факти на кшталт «хто написав конкретний роман». Висновок практичний: для фактичних питань Phi-4 потрібно підключати до бази знань (RAG) або пошуку — сама по собі вона не енциклопедія.

Ця пара цифр — GPQA 56 і SimpleQA 3 — найкраще описує характер Phi-4. Вона не «знає менше», вона влаштована інакше: блискуче працює з тим, що ви їй дали, і слабка там, де потрібно згадувати факти нізвідки. Для розробника чи студента, який і так підкладає моделі потрібний контекст (код, умову задачі, документ), це ідеальний профіль; для заміни пошуковика або Вікіпедії — ні. Розуміння цієї відмінності економить години розчарування: до Phi-4 не йдуть із питанням «розкажи мені про X», до неї йдуть із задачею «розв’яжи, розбери, виведи».

Контекст-парадокс і «тільки для математики»

Два нюанси, на яких легко обпектися.

Парадокс контексту. Логічно очікувати, що в потужнішої моделі й вікно контексту більше. У Phi-4 навпаки: базова 14B тримає лише 16K токенів, а маленька Phi-4-mini — цілих 128K. Тож якщо вам потрібно згодовувати моделі довгі документи, «старша» 14B-версія — не найкращий вибір; беріть mini або конкурента з більшим вікном. Це контрінтуїтивно, і про це рідко попереджають.

Reasoning — офіційно тільки для математики. Версії Phi-4-reasoning Microsoft прямо в картці моделі позначає як призначені й протестовані тільки для математичних міркувань. Використовувати їх для написання текстів чи відповідей на загальні питання — за межами зони підтримки. І ще тонкість: за даними дослідження (arXiv, квітень 2026), reasoning-версія різко втрачає якість, якщо давати їй приклади в промпті (few-shot) — ставте задачу напряму, без зразків.

Запуск: Ollama, LM Studio, llama.cpp

Найпростіший шлях — Ollama (перевірено за каталогом Ollama, червень 2026):

ollama run phi4              # базова 14B, STEM і логіка
ollama run phi4-mini         # легка 3.8B, довгий контекст
ollama run phi4-reasoning    # заточена під математику
ollama run phi4-reasoning:plus  # максимум з математики (AIME 81,3)

Ollama одразу піднімає локальний API, сумісний із форматом OpenAI, — зручно для підключення до редакторів коду й ботів.

LM Studio — графічний інтерфейс із каталогом моделей; у спільноті хвалять Q8-варіант Phi-4 від Unsloth для систем з обмеженою пам’яттю. Хороший вибір, якщо не любите термінал.

llama.cpp напряму — для тонкого налаштування й максимальної продуктивності на конкретному залізі; ключовий параметр тут — --n-gpu-layers (скільки шарів моделі винести на відеокарту).

Типові помилки й рішення:

CUDA out of memory — модель не влізла у відеопам’ять: візьміть квант менший (Q4 замість Q8) або закрийте застосунки, що займають VRAM.
Помилка при ollama pull — найчастіше бракує місця на диску: перевірте вільний простір перед завантаженням.
Модель обриває довгу відповідь — уперлися в контекст 16K: скоротіть запит або перейдіть на Phi-4-mini з вікном 128K.
Повільна генерація — модель рахується на процесорі, а не на GPU: перевірте командою ollama ps, на чому йде інференс.

Порада щодо налаштування: з огляду на контекст усього 16K у базової версії, тримайте запити компактними й не намагайтеся згодувати їй величезні документи цілком — для цього беріть Phi-4-mini з її вікном 128K.

Налаштування під себе: контекст, RAG і API

Кілька практичних моментів.

Контекст (num_ctx). У базової Phi-4 вікно всього 16K — цього вистачає для задач і діалогу, але не для довгих документів. Не намагайтеся задати в Ollama більше, ніж підтримує модель; потрібен довгий контекст — переходьте на Phi-4-mini (128K).
RAG для фактів. Оскільки Phi-4 слабка у фактичній пам’яті, для питань «що/хто/коли» підключайте її до бази знань або пошуку: модель чудово міркує над переданим їй текстом, навіть якщо сам факт не пам’ятає. Це перетворює її слабкість на кероване обмеження.
Температура. Для математики, коду та логіки ставте низьку (0.1–0.3) — міркуванню не потрібна «творчість». Це загальноприйняті орієнтири спільноти.
Без few-shot для reasoning. Reasoning-версіям не давайте приклади в промпті — формулюйте задачу напряму.

Режим API. Ollama піднімає сервер на localhost:11434 у форматі OpenAI: підключайте Phi-4 до редакторів коду, агентів і скриптів. Для локального STEM-помічника у зв’язці з RAG це робоча й приватна конфігурація — дані не покидають комп’ютер, а за токени платити не потрібно.

Українська і російська: чесно слабке місце

Тут Phi-4 програє, і про це потрібно сказати прямо. Microsoft у картці моделі прямо заявляє, що Phi-4 не призначена для мультимовного використання: частка неанглійських даних у навчанні — всього близько 8%. Це видно й за цифрами: на багатомовному тесті MMLU маленька Phi-4-mini набирає 49,3 проти 64,4 у співставної за розміром Qwen2.5-7B.

На практиці це означає: прості запити українською Phi-4 зрозуміє й відповість, але в нюансованому тексті, аргументації та фактичних питаннях українською чи російською вона помітно поступається. Якщо мова — головне у вашій задачі (переклад, копірайтинг, діалог українською), беріть Qwen3 або Gemma. Phi-4 ж розкривається там, де задача — логіка, математика й код, а мова спілкування переважно англійська.

Phi-4 проти Qwen3, Gemma і Llama

«Найкращої моделі взагалі» не буває. Ось чесне порівняння Phi-4 14B з трьома суперниками в локальному сегменті (станом на червень 2026).

Критерій	Phi-4	Qwen3	Gemma 4	Llama
Розмір	14B (легка)	8–32B	12–31B	8–70B
Міркування / STEM	Дуже сильно	Сильно	Сильно	Середньо
Українська/російська	Слабко	Найкращий	Добре	Середньо
Контекст (база)	16K	128K	128–256K	128K
Фактична пам’ять	Слабко (потрібен RAG)	Добре	Добре	Добре
Ліцензія	MIT	Apache 2.0	Apache 2.0	Community

Де Phi-4 об’єктивно попереду: міркування та STEM на мінімальному залізі — за співвідношенням «якість логіки на гігабайт VRAM» їй мало рівних. Де варто обрати інакше: для української, довгого контексту й фактичних задач сильніші Qwen3 і Gemma.

Коли брати Phi-4, а коли ні

Беріть Phi-4, якщо:

ваша задача — математика, логіка, міркування чи код, а не ерудиція;
залізо скромне (8–12 ГБ VRAM), а хочеться якість рівня великих моделей;
потрібен локальний STEM-помічник для навчання чи розробки англійською;
важлива вільна ліцензія MIT для комерційного продукту.

Оберіть альтернативу, якщо:

головне — грамотна українська чи російська: беріть Qwen3 або Gemma;
потрібні довгі документи (контекст 16K у базової Phi-4 малий) — беріть Phi-4-mini або конкурента;
потрібна фактична ерудиція без RAG — Phi-4 не енциклопедія.

Ризики й граблі

Не енциклопедія (головний нюанс). SimpleQA = 3 зі 100: на фактичних питаннях Phi-4 часто помиляється. Для таких задач обов’язковий RAG або пошук — модель сильна в логіці, а не в пам’яті фактів.
Контекст 16K у базової версії. Менше, ніж у mini (128K) і в конкурентів. Довгі документи цілком не помістяться.
Слабка українська і російська. Модель офіційно не для мультимовності — для кирилиці є варіанти кращі.
Reasoning — тільки математика. Версії Phi-4-reasoning Microsoft підтримує тільки для матзадач; не використовуйте їх як універсальний чат.
Few-shot шкодить reasoning. Приклади в промпті різко роняють якість reasoning-версій — ставте задачу напряму.
Критика «перенавчання». Ранні моделі Phi докоряли за підгонку під бенчмарки. У Phi-4 Microsoft посилила очищення даних і для перевірки прогнала модель на свіжих олімпіадах AMC-10 та AMC-12 (листопад 2024), яких не було в навчанні, — результати збіглися з бенчмарками. Це вагомий контраргумент, але рекордні цифри все одно перевіряйте на своїх задачах.
Перегрів за довгих сесій. Тривале навантаження гріє відеокарту — стежте за температурами на компактних збірках.

FAQ

Яка відеокарта потрібна для Phi-4? Базова Phi-4 14B у кванті Q4 займає близько 8–9 ГБ і працює на відеокарті рівня RTX 3060. Маленька Phi-4-mini (3,8 млрд) уміщується у 3–4 ГБ і піде навіть на слабкому залізі. Для повного формату FP16 потрібно порядку 32 ГБ.

Чи правда, що Phi-4 обходить GPT-4o? У задачах на міркування та STEM — так: за тестами GPQA (56,1 проти 50,6) і MATH (80,4 проти 74,6) Phi-4 14B випереджає значно більшу GPT-4o. Але це стосується саме логіки й математики; у фактичних знаннях і багатьох інших задачах GPT-4o сильніша.

Чому Phi-4 помиляється в простих фактах? Тому що її вчили переважно на синтетичних «підручникових» даних, а не на всьому інтернеті. Вона чудово розв’язує задачі, але погано пам’ятає випадкові факти (тест SimpleQA — усього 3 зі 100). Для фактичних питань підключайте до неї базу знань або пошук (RAG).

Чи підходить Phi-4 для української мови? Слабко. Microsoft офіційно не позиціонує Phi-4 як мультимовну модель — неанглійських даних у навчанні всього близько 8%. Прості запити вона зрозуміє, але для якісного українського чи російського тексту краще взяти Qwen3 або Gemma.

Яку версію Phi-4 обрати для довгих документів? Phi-4-mini: попри менший розмір (3,8 млрд проти 14), у неї вікно контексту 128K проти всього 16K у базової 14B-версії. Це той випадок, коли молодша модель підходить для довгого тексту краще за старшу.

Скільки місця на диску займе Phi-4? Базова 14B у кванті Q4 — близько 9 ГБ, mini — порядку 2,5 ГБ (за каталогом Ollama), multimodal — кілька гігабайтів (точний розмір уточніть у каталозі Ollama). Закладайте запас під кілька версій. Ollama зберігає завантажені моделі у своїй папці й підвантажує потрібну при запуску.

Чим Phi-4-reasoning відрізняється від звичайної Phi-4? Reasoning-версія донавчена спеціально під математичні міркування і тримає більший контекст (32K проти 16K), показуючи високі результати на олімпіадних тестах на кшталт AIME. Але Microsoft підтримує її тільки для матзадач — як універсальний чат чи для написання текстів вона не призначена. Для загальних задач беріть базову Phi-4.