Ryzen AI Max+ 395 для нейромереж: які моделі реально запустиш локально і з якою швидкістю

Коротко (TL;DR)

Ryzen AI Max+ 395 (кодова назва Strix Halo) перетворює компактний міні-ПК на машину для локального ШІ. Головне в ньому — до 128 ГБ єдиної пам’яті, з яких до 96 ГБ (у Windows) або ~120 ГБ (у Linux) можна віддати вбудованій графіці. Це дає змогу завантажити моделі, які не вміщаються у звичайну відеокарту на 24–32 ГБ: наприклад, Llama 70B у Q4 (~40 ГБ).

Розплата — швидкість. Пропускна здатність пам’яті 256 ГБ/с (приблизно третина від Mac Studio і в сім разів менше, ніж у RTX 5090), тому генерація на щільній 70B-моделі — близько 5 токенів/с, а швидко біжать компактні та MoE-моделі. Кому підходить: тим, кому важливі ємність і приватність, а не максимальна швидкість; для чату, коду й легкого RAG — чудово, для важкого довгого контексту — терпимо.

Ціна 128-ГБ боксу — близько $3 300 (на травень 2026; пів року тому було ~$2 000). Нижче — що саме потягне з цифрами, як налаштувати і з чим порівняти.

(Дані актуальні на 15 червня 2026; ціни та бенчмарки — з датами в тексті.)

Завдання та бюджет

Ця збірка — під локальний інференс LLM: запуск мовних моделей у себе, без хмари. Цільові сценарії: приватний чат-асистент, локальний кодовий помічник, RAG за особистими документами, експерименти з великими відкритими моделями. Не мета — навчання моделей із нуля та максимальний tok/s (для цього потрібен дискретний GPU або хмара).

Бюджет: один міні-ПК на Ryzen AI Max+ 395 зі 128 ГБ — близько $3 300 (травень 2026). Це готовий пристрій, а не збірка за компонентами: пам’ять розпаяна, графіка інтегрована. Фактично ви купуєте «коробку», а далі все вирішує налаштування софту.

Важливе застереження щодо очікувань: це не «локальний флагман рівня ChatGPT». Сучасні топ-моделі (Gemini, Claude Opus, моделі класу GPT-5) надто великі й вимогливі для такого APU — локально ви запускаєте відкриті моделі, а не їхніх хмарних конкурентів. Якщо потрібні саме топова швидкість і якість — це досі дискретний GPU або хмара.

Що таке Ryzen AI Max+ 395 і чому він для LLM

Strix Halo AMD позиціонує як найпотужніший x86-APU на ринку. Ключове:

  • CPU: 16 ядер Zen 5.
  • iGPU: Radeon 8060S, 40 обчислювальних блоків RDNA 3.5.
  • NPU: XDNA2, 50+ TOPS.
  • Пам’ять: до 128 ГБ єдиної LPDDR5x-8000, пропускна здатність 256 ГБ/с, спільна для CPU і GPU.

Чому це важливо. У звичайної відеокарти фіксована VRAM (16–32 ГБ), і модель, яка в неї не влізла, або не вантажиться, або йде в повільний режим на CPU. Strix Halo стирає цю межу: і процесор, і графіка звертаються до одного пулу пам’яті. До 96 ГБ (у Windows) можна оголосити «відеопам’яттю» через AMD Variable Graphics Memory. Для порівняння: у конкурентних APU зазвичай максимум 32 ГБ на упаковці — цього вистачає на LLM приблизно до 16 ГБ.

«Вбудована графіка» тут — оманливий ярлик: iGPU бачить весь пул пам’яті на повній швидкості шини, без PCIe-вузького місця та без копіювання даних туди-назад.

Що реально потягне

Головне питання — не «чи влізе», а «з якою швидкістю». Нижче — незалежні заміри на llama.cpp (бекенд Vulkan, iGPU Radeon 8060S; за даними Valérian de Gaussan, листопад 2025). Prefill — швидкість читання промпту, decode — швидкість генерації, яку ви відчуваєте в чаті.

МодельПараметри / квантРозмірPrefill, tk/sDecode, tk/s
Llama 3.2 3B3B Q41,9 ГБ191293
gpt-oss-20B20B MXFP4 (MoE)11,3 ГБ121677
Qwen3-Coder 30B30B BF1656,9 ГБ1549,2
gemma 3 27B27B BF1650,3 ГБ1043,9
Llama 3.3 70B70B Q439,7 ГБ785,1
gpt-oss-120B120B MXFP4 (MoE)59,0 ГБ50054
Mistral Large123B Q468,2 ГБ453,0

Що з цього випливає:

  • Маленькі та середні квантовані моделі біжать чудово (десятки токенів/с) — для чату й коду комфортно.
  • Щільні моделі 70B+ запускаються, але повільно — 3–5 токенів/с: працювати можна, якщо ви терплячі.
  • MoE та екзотичні кванти ламають правило «більше = повільніше»: gpt-oss-120B (архітектура MoE, квант MXFP4) видає ~54 токени/с — швидше, ніж щільна 70B. Це ключовий висновок: для швидкості на Strix Halo обирайте MoE-моделі та ефективні кванти, а не женіться за числом параметрів.

Кілька практичних нотаток про квантування та контекст. AMD рекомендує квант Q4_K_M для повсякденних задач і Q6/Q8 — для коду, де важлива точність. Контекстне вікно 128K реально тримати на моделях приблизно до 30B; на 70B+ довгий контекст швидко з’їдає пам’ять під KV-кеш. Ємності вистачає й під легке донавчання: 12B-модель можна файнтюнити без квантування — це близько 115 ГБ, що на дискретній споживчій карті недосяжно.

Вузьке місце — пропускна здатність пам’яті, а не обчислення. Тому архітектура моделі та квант впливають на швидкість сильніше, ніж «сирий» розмір.

Налаштування: головне — віддати пам’ять під GPU

Найчастіша помилка новачка: модель не вантажиться на iGPU, бо система за замовчуванням віддає графіці мало пам’яті. Лікується одним кроком.

Windows (найпростіше). AMD Software: Adrenalin → Performance → Tuning → Variable Graphics Memory. Пресети на 128-ГБ системі: Low ~16 ГБ, Medium ~32 ГБ, High ~64 ГБ, Custom до 96 ГБ. Для 70B-моделей ставте Custom 96 ГБ (системі залишиться 32 ГБ) і перезавантажтеся — це перерозподіл на рівні BIOS. Потім у LM Studio виставте GPU Offload = max, а в Ollama перевірте командою ollama ps, що модель лягла на GPU, а не на CPU.

Linux (максимум швидкості та пам’яті). Adrenalin тут немає — пам’ять під GPU задається параметрами ядра. Робоча зв’язка: amdgpu.gttsize=131072 (відкрити весь пул), ttm.pages_limit=33554432 та amd_iommu=off (останній дає ~6% до пропускної здатності). На Linux під GPU доступно до ~120 ГБ.

Який бекенд. На Strix Halo найнадійніший — Vulkan (драйвер RADV). ROCm для цього чипа (gfx1151) поки що має статус Preview, а в Ollama ROCm-бекенд часто зривається на CPU. Практичний вибір: LM Studio (GUI, для старту), Ollama з Vulkan (API та автоматизація), llama.cpp (максимум контролю та швидкості). NPU задіює переважно AMD Lemonade SDK — звичайні Ollama/LM Studio його ігнорують.

Потужність. Для LLM оптимум — 85 Вт: перехід на 120 Вт додає лише ~2%, бо упор у пам’ять, а не в обчислення.

Ще дві дрібниці, що економлять пам’ять і нерви. Для моделей більших за половину ОЗП у llama.cpp корисний прапорець --mmap 0 — інакше на єдиній пам’яті виникає конкуренція за буфери CPU і GPU. А якщо ви брали Ryzen AI саме заради NPU — на практиці його задіює переважно AMD Lemonade SDK; звичайні Ollama та LM Studio рахують на iGPU і NPU не чіпають.

Strix Halo проти Mac, DGX Spark і дискретного GPU

Strix Halo — не єдиний шлях до великої єдиної пам’яті. Чесне порівняння (перевірені спеки, за даними TerminalBytes на травень 2026):

РішенняПам’ятьПропускна здатністьЦіна
Strix Halo (128 ГБ)128 ГБ256 ГБ/с~$3 299
Mac Studio M4 Max128 ГБ546 ГБ/с~$3 699
Mac Studio M3 Ultra96 ГБ819 ГБ/с~$3 999
NVIDIA DGX Spark128 ГБ273 ГБ/с~$4 699
RTX 5090 (у десктопі)32 ГБ1792 ГБ/с~$1 999 MSRP

Як це читати:

  • Strix Halo виграє за ціною за гігабайт швидкої пам’яті (~$25,8/ГБ проти ~$41,7/ГБ у M3 Ultra) — це найдешевший спосіб завантажити 70B-клас цілком.
  • Mac Studio виграє за швидкістю: за тих самих 128 ГБ M4 Max вдвічі швидший за bandwidth за схожу ціну. Якщо упор у токени/с на моделі, яка й так влазить, — Mac розумніший.
  • RTX 5090 у сім разів швидша за пам’яттю, але лише 32 ГБ — велику модель цілком не завантажити.
  • Сборка на б/в RTX 3090 (~$1 500, 24 ГБ, ~936 ГБ/с) швидша за Strix Halo по пам’яті, але 24 ГБ не вмістять 70B цілком, а зв’язка з карт — це шум, жар і два слоти PCIe.
  • DGX Spark дає зіставну зі Strix Halo смугу за +$1 400, але з екосистемою CUDA (ми розбирали DGX Spark і Ryzen AI Halo, а також міні-ПК NVIDIA RTX Spark).

Короткий висновок: потрібна ємність за розумні гроші — Strix Halo; потрібна швидкість — Mac Studio; задача вкладається у 32 ГБ — дискретний GPU.

Скільки коштує і який бокс узяти

Ціни на Strix Halo-бокси стрибнули: 128-ГБ моделі коштували ~$2 000 на старті (2025), а до травня 2026 — близько $3 300 через дефіцит LPDDR5. Тому перевіряйте актуальну роздрібну ціну перед покупкою — огляди з цінами піврічної давнини вводять в оману.

Бокси на одному й тому самому чипі різняться охолодженням і шумом. З тих, що ми висвітлювали: Minix ER939-AI Pro (компактний, 2 ТБ SSD) і PELADN HO5. Якщо пристрій стоїть у спальні — дивіться на тихі варіанти: під навантаженням ці машини чути.

Чи дешевше це, ніж хмара

Чесно: для разового користувача — ні. Бокс за $3 300, розподілений на три роки, — це ~$90/міс до електрики; за ці гроші можна купити багато токенів в API або взяти підписку. Локальна збірка виправдана, коли є хоча б одне з:

  • Приватність. Медичні, юридичні, NDA-дані не повинні покидати вашу мережу — тоді питання не «чи дешевше», а «чи можливо взагалі».
  • Висока утилізація. Якщо ви ганяєте інференс цілий день (кодові агенти, пакетна обробка документів) — локально виходить дешевше за API.
  • Багатозадачність. Та сама машина крутить homelab, збірки, медіасервер — вартість на задачу падає.

Плюс зміна мислення: зі своїми «безплатними токенами» експериментуєш сміливіше, ніж коли кожен запит цокає лічильником API.

Ризики та обмеження

Чесний блок слабких місць (з датами):

  • Bandwidth — стеля швидкості. 256 ГБ/с — приблизно третина від Mac Studio чи б/в RTX 3090. Для чату з короткими промптами непомітно, але для довгого контексту й RAG префілл відчутно гальмуватиме.
  • Пам’ять розпаяна. Наростити її не можна — скільки взяли, стільки й буде. Апгрейд лише зовнішнім GPU.
  • Зовнішній GPU — із застереженням. На більшості плат AMD-відеокарта по Oculink упирається у 120 Вт (обмеження BIOS); карти NVIDIA, за повідомленнями власників (2026), не обмежені.
  • Софт «на вістрі». Підтримка gfx1151 у ROCm — Preview (2026); робочий шлях — Vulkan/llama.cpp, ROCm-Ollama нестабільний. Ситуація швидко покращується, але це не «поставив і забув».
  • Ціна волатильна. Через дефіцит LPDDR5 цінник плаває на сотні доларів — момент покупки має значення.

FAQ

Яку найбільшу модель можна запустити? За ємністю — аж до 120B+ (наприклад, gpt-oss-120B ~59 ГБ або Mistral Large 123B Q4 ~68 ГБ). Але щільні моделі рівня 70B+ ідуть на 3–5 токенів/с; для комфортної швидкості беріть MoE-моделі та кванти Q4.

Windows чи Linux? Для старту простіше Windows: виділення пам’яті через Adrenalin робиться в пару кліків. Для максимуму швидкості та пам’яті (до ~120 ГБ під GPU) — Linux із параметрами ядра і Vulkan/llama.cpp.

Це замінить відеокарту NVIDIA? Ні. Strix Halo бере ємністю (вантажить те, що не влазить у 24–32 ГБ GPU), але програє в сирій швидкості та зрілості екосистеми. За пропускною здатністю дискретні карти випереджають його в рази (256 ГБ/с проти ~1792 у RTX 5090) — але саме обсяг пам’яті вирішує, чи влізе велика модель узагалі. Це «багато пам’яті недорого», а не «швидше за RTX».

Чи потрібен NPU на 50 TOPS для LLM? Для класичного інференсу LLM працює переважно iGPU, а не NPU. NPU задіюють окремі стеки (AMD Lemonade SDK); звичайні Ollama/LM Studio його, як правило, не використовують.

Скільки пам’яті віддавати під графіку? На 128-ГБ системі під LLM — 96 ГБ (Windows, Custom) або ~120 ГБ (Linux), залишивши системі 8–32 ГБ. Для змішаної роботи достатньо 64 ГБ.

Чи шумить такий міні-ПК? Під тривалим навантаженням — так, машину чути (це не «тихий офісний неттоп»). Більші корпуси краще тримають температуру і шумлять менше, але займають більше місця — якщо пристрій стоїть біля спального місця, обирайте бокс з акцентом на охолодження.

Поділитися
Зв'язатися:
Крипто- та data-аналітик, інженер-програміст (факультет комп'ютерних наук ХНУРЕ). В IT з 2008 року: адміністрував корпоративний моніторинг у «Vodafone Україна», сім років розробляв і просував веб-проєкти, п'ять років керував маркетингом на метриках — конверсія, CTR, ROI, LTV.Криптовалютними ринками займаюся з 2021 року: ончейн-метрики, токеноміка, макроекономічні індикатори. Розробив власну data-driven модель аналізу ринку на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математична статистика та EDA; збір і звірку даних автоматизую AI-агентами.Принцип — «Don't trust, verify»: кожна цифра перевірена за першоджерелом, ключові — щонайменше за двома незалежними; прогнози — лише сценарії з умовами. Теза без даних не публікується.