Локальний LLM на Ryzen AI Max+ 395: що потягне

Коротко (TL;DR)

Ryzen AI Max+ 395 (кодова назва Strix Halo) перетворює компактний міні-ПК на машину для локального ШІ. Головне в ньому — до 128 ГБ єдиної пам’яті, з яких до 96 ГБ (у Windows) або ~120 ГБ (у Linux) можна віддати вбудованій графіці. Це дає змогу завантажити моделі, які не вміщаються у звичайну відеокарту на 24–32 ГБ: наприклад, Llama 70B у Q4 (~40 ГБ).

Коротко (TL;DR)
Завдання та бюджет
Що таке Ryzen AI Max+ 395 і чому він для LLM
Що реально потягне
Налаштування: головне — віддати пам’ять під GPU
Strix Halo проти Mac, DGX Spark і дискретного GPU
Брати зараз чи чекати на Gorgon Halo: що змінює нове покоління
Скільки коштує і який бокс узяти
Чи дешевше це, ніж хмара
Ризики та обмеження
FAQ

Розплата — швидкість. Паспортна пропускна здатність пам’яті 256 ГБ/с (приблизно третина від Mac Studio і в сім разів менше, ніж у RTX 5090), фактично вимірюють близько 215 ГБ/с. Компактні та MoE-моделі біжать швидко, щільні 70B+ — помітно повільніше. Кому підходить: тим, кому важливі ємність і приватність, а не максимальна швидкість; для чату, коду й легкого RAG — чудово, для важкого довгого контексту — терпимо.

Ціна зросла: 128-ГБ бокс зараз коштує близько $4 000, а власна машина AMD — Ryzen AI Halo Developer Platform — вийшла у США за $3 999 (липень 2026). Рік тому такі пристрої коштували ~$2 000.

І головне, чого не було в попередній версії цього розбору: AMD підтвердила наступне покоління — Ryzen AI Max PRO 400 (Gorgon Halo) зі 192 ГБ єдиної пам’яті, з яких до 160 ГБ віддається під VRAM. Нижче розбираємо, що реально потягне поточний чип, як його налаштувати, і чи варто чекати на новий.

BINANCEДосі дивишся збоку?Ринок працює без вихідних. Рахунок на Binance відкривається за 2 хвилини.Почати зараз

(Дані актуальні на 23 липня 2026; ціни та бенчмарки — з датами в тексті.)

Завдання та бюджет

Ця збірка — під локальний інференс LLM: запуск мовних моделей у себе, без хмари. Цільові сценарії: приватний чат-асистент, локальний кодовий помічник, RAG за особистими документами, експерименти з великими відкритими моделями. Не мета — навчання моделей із нуля та максимальний tok/s (для цього потрібен дискретний GPU або хмара).

Бюджет: один міні-ПК на Ryzen AI Max+ 395 зі 128 ГБ — близько $4 000 (липень 2026). Це готовий пристрій, а не збірка за компонентами: пам’ять розпаяна, графіка інтегрована. Фактично ви купуєте «коробку», а далі все вирішує налаштування софту.

Важливе застереження щодо очікувань: це не «локальний флагман рівня ChatGPT». Сучасні топ-моделі (Gemini, Claude Opus, моделі класу GPT-5) надто великі й вимогливі для такого APU — локально ви запускаєте відкриті моделі, а не їхніх хмарних конкурентів. Якщо потрібні саме топова швидкість і якість — це досі дискретний GPU або хмара.

Що таке Ryzen AI Max+ 395 і чому він для LLM

Strix Halo AMD позиціонує як найпотужніший x86-APU на ринку. Ключове:

CPU: 16 ядер Zen 5.
iGPU: Radeon 8060S, 40 обчислювальних блоків RDNA 3.5.
NPU: XDNA2, 50+ TOPS.
Пам’ять: до 128 ГБ єдиної LPDDR5x-8000, пропускна здатність 256 ГБ/с, спільна для CPU і GPU.

Чому це важливо. У звичайної відеокарти фіксована VRAM (16–32 ГБ), і модель, яка в неї не влізла, або не вантажиться, або йде в повільний режим на CPU. Strix Halo стирає цю межу: і процесор, і графіка звертаються до одного пулу пам’яті. До 96 ГБ (у Windows) можна оголосити «відеопам’яттю» через AMD Variable Graphics Memory. Для порівняння: у конкурентних APU зазвичай максимум 32 ГБ на упаковці — цього вистачає на LLM приблизно до 16 ГБ.

«Вбудована графіка» тут — оманливий ярлик: iGPU бачить весь пул пам’яті на повній швидкості шини, без PCIe-вузького місця та без копіювання даних туди-назад.

BINANCE COPY TRADINGКопітрейдинг на BinanceВідкрита статистика трейдерів, старт з $10, вимкнення одним кліком.Обрати трейдера

Що реально потягне

Головне питання — не «чи влізе», а «з якою швидкістю». Нижче — незалежні заміри на llama.cpp (бекенд Vulkan, iGPU Radeon 8060S; за даними Valérian de Gaussan, листопад 2025). Prefill — швидкість читання промпту, decode — швидкість генерації, яку ви відчуваєте в чаті.

Модель	Параметри / квант	Розмір	Prefill, tk/s	Decode, tk/s
Llama 3.2 3B	3B Q4	1,9 ГБ	1912	93
gpt-oss-20B	20B MXFP4 (MoE)	11,3 ГБ	1216	77
Qwen3-Coder 30B	30B BF16	56,9 ГБ	154	9,2
gemma 3 27B	27B BF16	50,3 ГБ	104	3,9
Llama 3.3 70B	70B Q4	39,7 ГБ	78	5,1
gpt-oss-120B	120B MXFP4 (MoE)	59,0 ГБ	500	54
Mistral Large	123B Q4	68,2 ГБ	45	3,0

Що з цього випливає:

Маленькі та середні квантовані моделі біжать чудово (десятки токенів/с) — для чату й коду комфортно.
Щільні моделі 70B+ запускаються, але повільно — 3–5 токенів/с: працювати можна, якщо ви терплячі.
MoE та екзотичні кванти ламають правило «більше = повільніше»: gpt-oss-120B (архітектура MoE, квант MXFP4) видає ~54 токени/с — швидше, ніж щільна 70B. Це ключовий висновок: для швидкості на Strix Halo обирайте MoE-моделі та ефективні кванти, а не женіться за числом параметрів.

Кілька практичних нотаток про квантування та контекст. AMD рекомендує квант Q4_K_M для повсякденних задач і Q6/Q8 — для коду, де важлива точність. Контекстне вікно 128K реально тримати на моделях приблизно до 30B; на 70B+ довгий контекст швидко з’їдає пам’ять під KV-кеш. Ємності вистачає й під легке донавчання: 12B-модель можна файнтюнити без квантування — це близько 115 ГБ, що на дискретній споживчій карті недосяжно.

Вузьке місце — пропускна здатність пам’яті, а не обчислення. Тому архітектура моделі та квант впливають на швидкість сильніше, ніж «сирий» розмір. І рахувати треба від фактичної полоси: вимірювані на Strix Halo ~215 ГБ/с помітно нижчі за паспортні 256 ГБ/с (дані llm-tracker.info, липень 2026).

Застереження про цифри для 70B: заміри розходяться

Тут доведеться бути чесними, бо в мережі ходять дві несумісні оцінки.

Таблиця вище — іменований замір із зазначеним бекендом (llama.cpp, Vulkan) і датою (листопад 2025): щільна Llama 3.3 70B Q4 дає 5,1 ток/с. Натомість профільні публікації 2026 року заявляють для того самого завдання 30–35 ток/с за повного завантаження моделі в пам’ять iGPU — тобто вшестеро більше.

Перевірити друге на першоджерелі нам не вдалося: автори цих публікацій не називають ані бекенд, ані методику, ані версію ROCm. Правдоподібне пояснення — визрівання стеку (ROCm для gfx1151 і llama.cpp за рік помітно просунулися, AMD викочувала оновлення ROCm і локального AI-сервера Lemonade), але це гіпотеза, а не підтверджений результат.

Практичний висновок: закладайтеся на нижню оцінку. Якщо 5 ток/с на 70B вас влаштовують — покупка виправдана в будь-якому разі; якщо рішення залежить від того, чи буде 30 ток/с, — дочекайтеся заміру на своїй зв’язці ОС і бекенда, а не вірте оглядам на слово.

Налаштування: головне — віддати пам’ять під GPU

Найчастіша помилка новачка: модель не вантажиться на iGPU, бо система за замовчуванням віддає графіці мало пам’яті. Лікується одним кроком.

Windows (найпростіше). AMD Software: Adrenalin → Performance → Tuning → Variable Graphics Memory. Пресети на 128-ГБ системі: Low ~16 ГБ, Medium ~32 ГБ, High ~64 ГБ, Custom до 96 ГБ. Для 70B-моделей ставте Custom 96 ГБ (системі залишиться 32 ГБ) і перезавантажтеся — це перерозподіл на рівні BIOS. Потім у LM Studio виставте GPU Offload = max, а в Ollama перевірте командою ollama ps, що модель лягла на GPU, а не на CPU.

Linux (максимум швидкості та пам’яті). Adrenalin тут немає — пам’ять під GPU задається параметрами ядра. Робоча зв’язка: amdgpu.gttsize=131072 (відкрити весь пул), ttm.pages_limit=33554432 та amd_iommu=off (останній дає ~6% до пропускної здатності). На Linux під GPU доступно до ~120 ГБ.

Який бекенд. На Strix Halo найнадійніший — Vulkan (драйвер RADV). ROCm для цього чипа (gfx1151) поки що має статус Preview, а в Ollama ROCm-бекенд часто зривається на CPU. Практичний вибір: LM Studio (GUI, для старту), Ollama з Vulkan (API та автоматизація), llama.cpp (максимум контролю та швидкості). NPU задіює переважно AMD Lemonade SDK — звичайні Ollama/LM Studio його ігнорують.

Потужність. Для LLM оптимум — 85 Вт: перехід на 120 Вт додає лише ~2%, бо упор у пам’ять, а не в обчислення.

Ще дві дрібниці, що економлять пам’ять і нерви. Для моделей більших за половину ОЗП у llama.cpp корисний прапорець --mmap 0 — інакше на єдиній пам’яті виникає конкуренція за буфери CPU і GPU. А якщо ви брали Ryzen AI саме заради NPU — на практиці його задіює переважно AMD Lemonade SDK; звичайні Ollama та LM Studio рахують на iGPU і NPU не чіпають.

Strix Halo проти Mac, DGX Spark і дискретного GPU

Strix Halo — не єдиний шлях до великої єдиної пам’яті. Чесне порівняння (перевірені спеки, за даними TerminalBytes на травень 2026):

Рішення	Пам’ять	Пропускна здатність	Ціна
Strix Halo (128 ГБ)	128 ГБ	256 ГБ/с (факт. ~215)	~$3 999
Mac Studio M4 Max	128 ГБ	546 ГБ/с	~$3 699
Mac Studio M3 Ultra	96 ГБ	819 ГБ/с	~$3 999
NVIDIA DGX Spark	128 ГБ	273 ГБ/с	~$4 699
RTX 5090 (у десктопі)	32 ГБ	1792 ГБ/с	~$1 999 MSRP

Як це читати:

Strix Halo виграє за ціною за гігабайт швидкої пам’яті (~$31,2/ГБ проти ~$41,7/ГБ у M3 Ultra; рік тому розрив був удвічі більший) — це найдешевший спосіб завантажити 70B-клас цілком.
Mac Studio виграє за швидкістю: за тих самих 128 ГБ M4 Max вдвічі швидший за bandwidth за схожу ціну. Якщо упор у токени/с на моделі, яка й так влазить, — Mac розумніший.
RTX 5090 у сім разів швидша за пам’яттю, але лише 32 ГБ — велику модель цілком не завантажити.
Сборка на б/в RTX 3090 (~$1 500, 24 ГБ, ~936 ГБ/с) швидша за Strix Halo по пам’яті, але 24 ГБ не вмістять 70B цілком, а зв’язка з карт — це шум, жар і два слоти PCIe.
DGX Spark дає зіставну зі Strix Halo смугу за +$1 400, але з екосистемою CUDA (ми розбирали DGX Spark і Ryzen AI Halo, а також міні-ПК NVIDIA RTX Spark).

Короткий висновок: потрібна ємність за розумні гроші — Strix Halo; потрібна швидкість — Mac Studio; задача вкладається у 32 ГБ — дискретний GPU.

Брати зараз чи чекати на Gorgon Halo: що змінює нове покоління

20 травня 2026 року AMD підтвердила серію Ryzen AI Max PRO 400 під кодовим іменем Gorgon Halo. Для локального інференсу це найважливіша подія з моменту виходу Strix Halo — але з причини, яка не очевидна із заголовків.

Параметр	Ryzen AI Max+ 395 (Strix Halo)	Ryzen AI Max+ PRO 495 (Gorgon Halo)
Ядра CPU	16 Zen 5 / 32 потоки	16 Zen 5 / 32 потоки
Буст CPU	5,1 ГГц	5,2 ГГц
iGPU	40 CU RDNA 3.5	40 CU RDNA 3.5
Буст GPU	2,9 ГГц	3,0 ГГц
NPU	50 TOPS	55 TOPS
Єдина пам’ять	до 128 ГБ LPDDR5x-8000	до 192 ГБ LPDDR5x-8000
Максимум під VRAM	~96 ГБ (Windows) / ~120 ГБ (Linux)	до 160 ГБ

Подивіться на таблицю уважно: весь приріст — за пам’яттю. Плюс 100 МГц до процесора, плюс 100 МГц до графіки, плюс 5 TOPS до NPU — це похибка, а не покоління. Змінюється одне: стеля ємності зростає у півтора раза, і AMD на цій підставі називає PRO 495 першим клієнтським x86-чипом, здатним тримати локальні моделі на 300+ млрд параметрів.

Що це означає на практиці:

Швидкість не зросте. Вузьке місце — пропускна здатність пам’яті, а вона лишилася тією самою (LPDDR5x-8000). Модель, яка сьогодні йде на 5 ток/с, на новому чипі піде приблизно так само.
Відкриється клас моделей, який зараз не влазить. 160 ГБ під VRAM — це щільні моделі рівня 120B у 8-бітному кванті або дуже довгий контекст на 70B без витіснення KV-кешу.
Чекати має сенс, лише якщо вам потрібна саме ємність. Якщо ваші моделі й так вміщаються в 96–120 ГБ — нове покоління не дасть вам нічого.

За строками: AMD офіційно називає лише «скоро». Варіант її власної машини на PRO 495 очікується у третьому кварталі 2026 року, ціна не оголошена. Framework уже показав десктоп на цьому чипі зі 192 ГБ, але теж без дати й цінника — тобто на момент публікації купити Gorgon Halo не можна ніде.

Окрема деталь для тих, хто дивиться на молодші моделі: в оновленій лінійці чипи 392 і 388 зберігають повний 40-блоковий iGPU Radeon 8060S замість урізаного 32-блокового 8050S у попередніх 390/385. Для локальних мовних моделей це важливіше за кількість ядер процесора — стеля графіки в молодших SKU тепер така сама, як у флагмана. Дані щодо молодших SKU походять із профільного розбору, офіційною таблицею AMD ми їх підтвердити не змогли.

Скільки коштує і який бокс узяти

Ціни на Strix Halo-бокси зросли майже вдвічі: 128-ГБ моделі коштували ~$2 000 на старті (2025), а до липня 2026 змістилися до позначки близько $4 000 через дефіцит LPDDR5. Тому перевіряйте актуальну роздрібну ціну перед покупкою — огляди з цінами піврічної давнини вводять в оману.

Орієнтир ринку тепер задає сама AMD. У липні 2026 року вийшла її власна машина — Ryzen AI Halo Developer Platform: Ryzen AI Max+ 395, 128 ГБ, ціна $3 999. Продається вона поки лише у США і лише через одного ритейлера (Micro Center), причому самовивозом. Показово, що цей цінник точно збігається зі стартовою ціною Nvidia DGX Spark: конфігурація Framework Desktop на 128 ГБ з розширенням потрапляє в той самий діапазон, тож це не премія AMD, а рівень, до якого прийшов увесь клас пристроїв.

Бокси на одному й тому самому чипі різняться охолодженням і шумом. З тих, що ми висвітлювали: Minix ER939-AI Pro (компактний, 2 ТБ SSD) і PELADN HO5. Якщо пристрій стоїть у спальні — дивіться на тихі варіанти: під навантаженням ці машини чути.

Чи дешевше це, ніж хмара

Чесно: для разового користувача — ні. Бокс за $4 000, розподілений на три роки, — це ~$111/міс до електрики; за ці гроші можна купити багато токенів в API або взяти підписку. Локальна збірка виправдана, коли є хоча б одне з:

Приватність. Медичні, юридичні, NDA-дані не повинні покидати вашу мережу — тоді питання не «чи дешевше», а «чи можливо взагалі».
Висока утилізація. Якщо ви ганяєте інференс цілий день (кодові агенти, пакетна обробка документів) — локально виходить дешевше за API.
Багатозадачність. Та сама машина крутить homelab, збірки, медіасервер — вартість на задачу падає.

Плюс зміна мислення: зі своїми «безплатними токенами» експериментуєш сміливіше, ніж коли кожен запит цокає лічильником API.

Ризики та обмеження

Чесний блок слабких місць (з датами):

Bandwidth — стеля швидкості. Паспортні 256 ГБ/с (фактично вимірюють ~215 ГБ/с) — приблизно третина від Mac Studio чи б/в RTX 3090. Для чату з короткими промптами непомітно, але для довгого контексту й RAG префілл відчутно гальмуватиме.
Пам’ять розпаяна. Наростити її не можна — скільки взяли, стільки й буде. Апгрейд лише зовнішнім GPU.
Зовнішній GPU — із застереженням. На більшості плат AMD-відеокарта по Oculink упирається у 120 Вт (обмеження BIOS); карти NVIDIA, за повідомленнями власників (2026), не обмежені.
Софт «на вістрі». Підтримка gfx1151 у ROCm — Preview (2026); робочий шлях — Vulkan/llama.cpp, ROCm-Ollama нестабільний. Ситуація швидко покращується, але це не «поставив і забув».
Ціна волатильна і зросла. Через дефіцит LPDDR5 цінник за рік пішов з ~$2 000 до ~$4 000 (липень 2026) — момент покупки має значення.
Нове покоління не пришвидшить. Gorgon Halo (192 ГБ) піднімає лише ємність: пропускна здатність пам’яті та сама, отже токени за секунду на моделях, які й так влазять, не зростуть.
Строків нового чипа немає. AMD каже «скоро»; варіант її машини на PRO 495 очікується в Q3 2026 без оголошеної ціни — планувати покупку за цією датою ризиковано.

FAQ

Яку найбільшу модель можна запустити? За ємністю — аж до 120B+ (наприклад, gpt-oss-120B ~59 ГБ або Mistral Large 123B Q4 ~68 ГБ). Але щільні моделі рівня 70B+ ідуть на 3–5 токенів/с; для комфортної швидкості беріть MoE-моделі та кванти Q4.

Windows чи Linux? Для старту простіше Windows: виділення пам’яті через Adrenalin робиться в пару кліків. Для максимуму швидкості та пам’яті (до ~120 ГБ під GPU) — Linux із параметрами ядра і Vulkan/llama.cpp.

Це замінить відеокарту NVIDIA? Ні. Strix Halo бере ємністю (вантажить те, що не влазить у 24–32 ГБ GPU), але програє в сирій швидкості та зрілості екосистеми. За пропускною здатністю дискретні карти випереджають його в рази (256 ГБ/с проти ~1792 у RTX 5090) — але саме обсяг пам’яті вирішує, чи влізе велика модель узагалі. Це «багато пам’яті недорого», а не «швидше за RTX».

Чи потрібен NPU на 50 TOPS для LLM? Для класичного інференсу LLM працює переважно iGPU, а не NPU. NPU задіюють окремі стеки (AMD Lemonade SDK); звичайні Ollama/LM Studio його, як правило, не використовують.

Чекати на Gorgon Halo чи брати 395 зараз? Залежить від того, чи впираєтеся ви в ємність. Новий Ryzen AI Max+ PRO 495 дає 192 ГБ пам’яті (до 160 ГБ під VRAM), але за обчисленнями це той самий чип: +100 МГц до CPU і GPU, 55 TOPS проти 50. Швидкість генерації не зросте, бо пропускна здатність пам’яті колишня. Чекати варто, якщо ваші моделі не вміщаються в 96–120 ГБ; в усіх інших випадках різниці не буде. Купити його на момент публікації все одно ніде — строків AMD не називає.

Скільки пам’яті віддавати під графіку? На 128-ГБ системі під LLM — 96 ГБ (Windows, Custom) або ~120 ГБ (Linux), залишивши системі 8–32 ГБ. Для змішаної роботи достатньо 64 ГБ.

Чи шумить такий міні-ПК? Під тривалим навантаженням — так, машину чути (це не «тихий офісний неттоп»). Більші корпуси краще тримають температуру і шумлять менше, але займають більше місця — якщо пристрій стоїть біля спального місця, обирайте бокс з акцентом на охолодження.