Коротко (TL;DR)
Ryzen AI Max+ 395 (кодова назва Strix Halo) перетворює компактний міні-ПК на машину для локального ШІ. Головне в ньому — до 128 ГБ єдиної пам’яті, з яких до 96 ГБ (у Windows) або ~120 ГБ (у Linux) можна віддати вбудованій графіці. Це дає змогу завантажити моделі, які не вміщаються у звичайну відеокарту на 24–32 ГБ: наприклад, Llama 70B у Q4 (~40 ГБ).
Розплата — швидкість. Пропускна здатність пам’яті 256 ГБ/с (приблизно третина від Mac Studio і в сім разів менше, ніж у RTX 5090), тому генерація на щільній 70B-моделі — близько 5 токенів/с, а швидко біжать компактні та MoE-моделі. Кому підходить: тим, кому важливі ємність і приватність, а не максимальна швидкість; для чату, коду й легкого RAG — чудово, для важкого довгого контексту — терпимо.
Ціна 128-ГБ боксу — близько $3 300 (на травень 2026; пів року тому було ~$2 000). Нижче — що саме потягне з цифрами, як налаштувати і з чим порівняти.
(Дані актуальні на 15 червня 2026; ціни та бенчмарки — з датами в тексті.)
Завдання та бюджет
Ця збірка — під локальний інференс LLM: запуск мовних моделей у себе, без хмари. Цільові сценарії: приватний чат-асистент, локальний кодовий помічник, RAG за особистими документами, експерименти з великими відкритими моделями. Не мета — навчання моделей із нуля та максимальний tok/s (для цього потрібен дискретний GPU або хмара).
Бюджет: один міні-ПК на Ryzen AI Max+ 395 зі 128 ГБ — близько $3 300 (травень 2026). Це готовий пристрій, а не збірка за компонентами: пам’ять розпаяна, графіка інтегрована. Фактично ви купуєте «коробку», а далі все вирішує налаштування софту.
Важливе застереження щодо очікувань: це не «локальний флагман рівня ChatGPT». Сучасні топ-моделі (Gemini, Claude Opus, моделі класу GPT-5) надто великі й вимогливі для такого APU — локально ви запускаєте відкриті моделі, а не їхніх хмарних конкурентів. Якщо потрібні саме топова швидкість і якість — це досі дискретний GPU або хмара.
Що таке Ryzen AI Max+ 395 і чому він для LLM
Strix Halo AMD позиціонує як найпотужніший x86-APU на ринку. Ключове:
- CPU: 16 ядер Zen 5.
- iGPU: Radeon 8060S, 40 обчислювальних блоків RDNA 3.5.
- NPU: XDNA2, 50+ TOPS.
- Пам’ять: до 128 ГБ єдиної LPDDR5x-8000, пропускна здатність 256 ГБ/с, спільна для CPU і GPU.
Чому це важливо. У звичайної відеокарти фіксована VRAM (16–32 ГБ), і модель, яка в неї не влізла, або не вантажиться, або йде в повільний режим на CPU. Strix Halo стирає цю межу: і процесор, і графіка звертаються до одного пулу пам’яті. До 96 ГБ (у Windows) можна оголосити «відеопам’яттю» через AMD Variable Graphics Memory. Для порівняння: у конкурентних APU зазвичай максимум 32 ГБ на упаковці — цього вистачає на LLM приблизно до 16 ГБ.
«Вбудована графіка» тут — оманливий ярлик: iGPU бачить весь пул пам’яті на повній швидкості шини, без PCIe-вузького місця та без копіювання даних туди-назад.
Що реально потягне
Головне питання — не «чи влізе», а «з якою швидкістю». Нижче — незалежні заміри на llama.cpp (бекенд Vulkan, iGPU Radeon 8060S; за даними Valérian de Gaussan, листопад 2025). Prefill — швидкість читання промпту, decode — швидкість генерації, яку ви відчуваєте в чаті.Модель Параметри / квант Розмір Prefill, tk/s Decode, tk/s Llama 3.2 3B 3B Q4 1,9 ГБ 1912 93 gpt-oss-20B 20B MXFP4 (MoE) 11,3 ГБ 1216 77 Qwen3-Coder 30B 30B BF16 56,9 ГБ 154 9,2 gemma 3 27B 27B BF16 50,3 ГБ 104 3,9 Llama 3.3 70B 70B Q4 39,7 ГБ 78 5,1 gpt-oss-120B 120B MXFP4 (MoE) 59,0 ГБ 500 54 Mistral Large 123B Q4 68,2 ГБ 45 3,0
Що з цього випливає:
- Маленькі та середні квантовані моделі біжать чудово (десятки токенів/с) — для чату й коду комфортно.
- Щільні моделі 70B+ запускаються, але повільно — 3–5 токенів/с: працювати можна, якщо ви терплячі.
- MoE та екзотичні кванти ламають правило «більше = повільніше»: gpt-oss-120B (архітектура MoE, квант MXFP4) видає ~54 токени/с — швидше, ніж щільна 70B. Це ключовий висновок: для швидкості на Strix Halo обирайте MoE-моделі та ефективні кванти, а не женіться за числом параметрів.
Кілька практичних нотаток про квантування та контекст. AMD рекомендує квант Q4_K_M для повсякденних задач і Q6/Q8 — для коду, де важлива точність. Контекстне вікно 128K реально тримати на моделях приблизно до 30B; на 70B+ довгий контекст швидко з’їдає пам’ять під KV-кеш. Ємності вистачає й під легке донавчання: 12B-модель можна файнтюнити без квантування — це близько 115 ГБ, що на дискретній споживчій карті недосяжно.
Вузьке місце — пропускна здатність пам’яті, а не обчислення. Тому архітектура моделі та квант впливають на швидкість сильніше, ніж «сирий» розмір.
Налаштування: головне — віддати пам’ять під GPU
Найчастіша помилка новачка: модель не вантажиться на iGPU, бо система за замовчуванням віддає графіці мало пам’яті. Лікується одним кроком.
Windows (найпростіше). AMD Software: Adrenalin → Performance → Tuning → Variable Graphics Memory. Пресети на 128-ГБ системі: Low ~16 ГБ, Medium ~32 ГБ, High ~64 ГБ, Custom до 96 ГБ. Для 70B-моделей ставте Custom 96 ГБ (системі залишиться 32 ГБ) і перезавантажтеся — це перерозподіл на рівні BIOS. Потім у LM Studio виставте GPU Offload = max, а в Ollama перевірте командою ollama ps, що модель лягла на GPU, а не на CPU.
Linux (максимум швидкості та пам’яті). Adrenalin тут немає — пам’ять під GPU задається параметрами ядра. Робоча зв’язка: amdgpu.gttsize=131072 (відкрити весь пул), ttm.pages_limit=33554432 та amd_iommu=off (останній дає ~6% до пропускної здатності). На Linux під GPU доступно до ~120 ГБ.
Який бекенд. На Strix Halo найнадійніший — Vulkan (драйвер RADV). ROCm для цього чипа (gfx1151) поки що має статус Preview, а в Ollama ROCm-бекенд часто зривається на CPU. Практичний вибір: LM Studio (GUI, для старту), Ollama з Vulkan (API та автоматизація), llama.cpp (максимум контролю та швидкості). NPU задіює переважно AMD Lemonade SDK — звичайні Ollama/LM Studio його ігнорують.
Потужність. Для LLM оптимум — 85 Вт: перехід на 120 Вт додає лише ~2%, бо упор у пам’ять, а не в обчислення.
Ще дві дрібниці, що економлять пам’ять і нерви. Для моделей більших за половину ОЗП у llama.cpp корисний прапорець --mmap 0 — інакше на єдиній пам’яті виникає конкуренція за буфери CPU і GPU. А якщо ви брали Ryzen AI саме заради NPU — на практиці його задіює переважно AMD Lemonade SDK; звичайні Ollama та LM Studio рахують на iGPU і NPU не чіпають.
Strix Halo проти Mac, DGX Spark і дискретного GPU
Strix Halo — не єдиний шлях до великої єдиної пам’яті. Чесне порівняння (перевірені спеки, за даними TerminalBytes на травень 2026):Рішення Пам’ять Пропускна здатність Ціна Strix Halo (128 ГБ) 128 ГБ 256 ГБ/с ~$3 299 Mac Studio M4 Max 128 ГБ 546 ГБ/с ~$3 699 Mac Studio M3 Ultra 96 ГБ 819 ГБ/с ~$3 999 NVIDIA DGX Spark 128 ГБ 273 ГБ/с ~$4 699 RTX 5090 (у десктопі) 32 ГБ 1792 ГБ/с ~$1 999 MSRP
Як це читати:
- Strix Halo виграє за ціною за гігабайт швидкої пам’яті (~$25,8/ГБ проти ~$41,7/ГБ у M3 Ultra) — це найдешевший спосіб завантажити 70B-клас цілком.
- Mac Studio виграє за швидкістю: за тих самих 128 ГБ M4 Max вдвічі швидший за bandwidth за схожу ціну. Якщо упор у токени/с на моделі, яка й так влазить, — Mac розумніший.
- RTX 5090 у сім разів швидша за пам’яттю, але лише 32 ГБ — велику модель цілком не завантажити.
- Сборка на б/в RTX 3090 (~$1 500, 24 ГБ, ~936 ГБ/с) швидша за Strix Halo по пам’яті, але 24 ГБ не вмістять 70B цілком, а зв’язка з карт — це шум, жар і два слоти PCIe.
- DGX Spark дає зіставну зі Strix Halo смугу за +$1 400, але з екосистемою CUDA (ми розбирали DGX Spark і Ryzen AI Halo, а також міні-ПК NVIDIA RTX Spark).
Короткий висновок: потрібна ємність за розумні гроші — Strix Halo; потрібна швидкість — Mac Studio; задача вкладається у 32 ГБ — дискретний GPU.
Скільки коштує і який бокс узяти
Ціни на Strix Halo-бокси стрибнули: 128-ГБ моделі коштували ~$2 000 на старті (2025), а до травня 2026 — близько $3 300 через дефіцит LPDDR5. Тому перевіряйте актуальну роздрібну ціну перед покупкою — огляди з цінами піврічної давнини вводять в оману.
Бокси на одному й тому самому чипі різняться охолодженням і шумом. З тих, що ми висвітлювали: Minix ER939-AI Pro (компактний, 2 ТБ SSD) і PELADN HO5. Якщо пристрій стоїть у спальні — дивіться на тихі варіанти: під навантаженням ці машини чути.
Чи дешевше це, ніж хмара
Чесно: для разового користувача — ні. Бокс за $3 300, розподілений на три роки, — це ~$90/міс до електрики; за ці гроші можна купити багато токенів в API або взяти підписку. Локальна збірка виправдана, коли є хоча б одне з:
- Приватність. Медичні, юридичні, NDA-дані не повинні покидати вашу мережу — тоді питання не «чи дешевше», а «чи можливо взагалі».
- Висока утилізація. Якщо ви ганяєте інференс цілий день (кодові агенти, пакетна обробка документів) — локально виходить дешевше за API.
- Багатозадачність. Та сама машина крутить homelab, збірки, медіасервер — вартість на задачу падає.
Плюс зміна мислення: зі своїми «безплатними токенами» експериментуєш сміливіше, ніж коли кожен запит цокає лічильником API.
Ризики та обмеження
Чесний блок слабких місць (з датами):
- Bandwidth — стеля швидкості. 256 ГБ/с — приблизно третина від Mac Studio чи б/в RTX 3090. Для чату з короткими промптами непомітно, але для довгого контексту й RAG префілл відчутно гальмуватиме.
- Пам’ять розпаяна. Наростити її не можна — скільки взяли, стільки й буде. Апгрейд лише зовнішнім GPU.
- Зовнішній GPU — із застереженням. На більшості плат AMD-відеокарта по Oculink упирається у 120 Вт (обмеження BIOS); карти NVIDIA, за повідомленнями власників (2026), не обмежені.
- Софт «на вістрі». Підтримка gfx1151 у ROCm — Preview (2026); робочий шлях — Vulkan/llama.cpp, ROCm-Ollama нестабільний. Ситуація швидко покращується, але це не «поставив і забув».
- Ціна волатильна. Через дефіцит LPDDR5 цінник плаває на сотні доларів — момент покупки має значення.
FAQ
Яку найбільшу модель можна запустити? За ємністю — аж до 120B+ (наприклад, gpt-oss-120B ~59 ГБ або Mistral Large 123B Q4 ~68 ГБ). Але щільні моделі рівня 70B+ ідуть на 3–5 токенів/с; для комфортної швидкості беріть MoE-моделі та кванти Q4.
Windows чи Linux? Для старту простіше Windows: виділення пам’яті через Adrenalin робиться в пару кліків. Для максимуму швидкості та пам’яті (до ~120 ГБ під GPU) — Linux із параметрами ядра і Vulkan/llama.cpp.
Це замінить відеокарту NVIDIA? Ні. Strix Halo бере ємністю (вантажить те, що не влазить у 24–32 ГБ GPU), але програє в сирій швидкості та зрілості екосистеми. За пропускною здатністю дискретні карти випереджають його в рази (256 ГБ/с проти ~1792 у RTX 5090) — але саме обсяг пам’яті вирішує, чи влізе велика модель узагалі. Це «багато пам’яті недорого», а не «швидше за RTX».
Чи потрібен NPU на 50 TOPS для LLM? Для класичного інференсу LLM працює переважно iGPU, а не NPU. NPU задіюють окремі стеки (AMD Lemonade SDK); звичайні Ollama/LM Studio його, як правило, не використовують.
Скільки пам’яті віддавати під графіку? На 128-ГБ системі під LLM — 96 ГБ (Windows, Custom) або ~120 ГБ (Linux), залишивши системі 8–32 ГБ. Для змішаної роботи достатньо 64 ГБ.
Чи шумить такий міні-ПК? Під тривалим навантаженням — так, машину чути (це не «тихий офісний неттоп»). Більші корпуси краще тримають температуру і шумлять менше, але займають більше місця — якщо пристрій стоїть біля спального місця, обирайте бокс з акцентом на охолодження.




