Коротко (TL;DR)
Ryzen AI Max+ 395 (кодовое имя Strix Halo) превращает компактный мини-ПК в машину для локального ИИ. Главное в нём — до 128 ГБ единой памяти, из которых до 96 ГБ (в Windows) или ~120 ГБ (в Linux) можно отдать встроенной графике. Это позволяет загрузить модели, которые не помещаются в обычную видеокарту на 24–32 ГБ: например, Llama 70B в Q4 (~40 ГБ).
Расплата — скорость. Пропускная способность памяти 256 ГБ/с (примерно треть от Mac Studio и в семь раз меньше, чем у RTX 5090), поэтому генерация на плотной 70B-модели — около 5 токенов/с, а быстро бегут компактные и MoE-модели. Кому подходит: тем, кому важна ёмкость и приватность, а не максимальная скорость; для чата, кода и лёгкого RAG — отлично, для тяжёлого длинного контекста — терпимо.
Цена 128-ГБ бокса — около $3 300 (на май 2026; полгода назад было ~$2 000). Ниже — что именно потянет с цифрами, как настроить и с чем сравнить.
(Данные актуальны на 15 июня 2026; цены и бенчмарки — с датами в тексте.)
Задача и бюджет
Эта сборка — под локальный инференс LLM: запуск языковых моделей у себя, без облака. Целевые сценарии: приватный чат-ассистент, локальный кодовый помощник, RAG по личным документам, эксперименты с большими открытыми моделями. Не цель — обучение моделей с нуля и максимальный tok/s (для этого нужен дискретный GPU или облако).
Бюджет: один мини-ПК на Ryzen AI Max+ 395 со 128 ГБ — около $3 300 (май 2026). Это готовое устройство, а не сборка по компонентам: память распаяна, графика интегрирована. Фактически вы покупаете «коробку», а дальше всё решает настройка софта.
Важная оговорка по ожиданиям: это не «локальный флагман уровня ChatGPT». Современные топ-модели (Gemini, Claude Opus, модели класса GPT-5) слишком велики и требовательны для такого APU — локально вы запускаете открытые модели, а не их облачных конкурентов. Если нужна именно топовая скорость и качество — это по-прежнему дискретный GPU или облако.
Что такое Ryzen AI Max+ 395 и почему он для LLM
Strix Halo AMD позиционирует как самый мощный x86-APU на рынке. Ключевое:
- CPU: 16 ядер Zen 5.
- iGPU: Radeon 8060S, 40 вычислительных блоков RDNA 3.5.
- NPU: XDNA2, 50+ TOPS.
- Память: до 128 ГБ единой LPDDR5x-8000, пропускная способность 256 ГБ/с, общая для CPU и GPU.
Почему это важно. У обычной видеокарты фиксированная VRAM (16–32 ГБ), и модель, которая в неё не влезла, либо не грузится, либо уходит в медленный режим на CPU. Strix Halo стирает эту границу: и процессор, и графика обращаются к одному пулу памяти. До 96 ГБ (в Windows) можно объявить «видеопамятью» через AMD Variable Graphics Memory. Для сравнения: у конкурирующих APU обычно максимум 32 ГБ на упаковке — этого хватает на LLM примерно до 16 ГБ.
«Встроенная графика» здесь — обманчивый ярлык: iGPU видит весь пул памяти на полной скорости шины, без PCIe-бутылочного горлышка и без копирования данных туда-обратно.
Что реально потянет
Главный вопрос — не «влезет ли», а «с какой скоростью». Ниже — независимые замеры на llama.cpp (бекенд Vulkan, iGPU Radeon 8060S; по данным Valérian de Gaussan, ноябрь 2025). Prefill — скорость чтения промпта, decode — скорость генерации, которую вы ощущаете в чате.Модель Параметры / квант Размер Prefill, tk/s Decode, tk/s Llama 3.2 3B 3B Q4 1,9 ГБ 1912 93 gpt-oss-20B 20B MXFP4 (MoE) 11,3 ГБ 1216 77 Qwen3-Coder 30B 30B BF16 56,9 ГБ 154 9,2 gemma 3 27B 27B BF16 50,3 ГБ 104 3,9 Llama 3.3 70B 70B Q4 39,7 ГБ 78 5,1 gpt-oss-120B 120B MXFP4 (MoE) 59,0 ГБ 500 54 Mistral Large 123B Q4 68,2 ГБ 45 3,0
Что из этого следует:
- Маленькие и средние квантованные модели бегут отлично (десятки токенов/с) — для чата и кода комфортно.
- Плотные модели 70B+ запускаются, но медленно — 3–5 токенов/с: работать можно, если вы терпеливы.
- MoE и экзотические кванты ломают правило «больше = медленнее»: gpt-oss-120B (архитектура MoE, квант MXFP4) выдаёт ~54 токена/с — быстрее, чем плотная 70B. Это ключевой вывод: для скорости на Strix Halo выбирайте MoE-модели и эффективные кванты, а не гонитесь за числом параметров.
Узкое место — пропускная способность памяти, а не вычисления. Поэтому архитектура модели и квант влияют на скорость сильнее, чем «сырой» размер.
Пара практических заметок по квантованию и контексту. AMD рекомендует квант Q4_K_M для повседневных задач и Q6/Q8 — для кода, где важна точность. Контекстное окно 128K реально держать на моделях примерно до 30B; на 70B+ длинный контекст быстро съедает память под KV-кэш. Ёмкости хватает и под лёгкое дообучение: 12B-модель можно файнтюнить без квантования — это около 115 ГБ, что на дискретной потребительской карте недостижимо.
Настройка: главное — отдать память под GPU
Самая частая ошибка новичка: модель не грузится на iGPU, потому что система по умолчанию отдаёт графике мало памяти. Чинится одним шагом.
Windows (проще всего). AMD Software: Adrenalin → Performance → Tuning → Variable Graphics Memory. Пресеты на 128-ГБ системе: Low ~16 ГБ, Medium ~32 ГБ, High ~64 ГБ, Custom до 96 ГБ. Для 70B-моделей ставьте Custom 96 ГБ (системе останется 32 ГБ) и перезагрузитесь — это перераспределение на уровне BIOS. Затем в LM Studio выставьте GPU Offload = max, а в Ollama проверьте командой ollama ps, что модель легла на GPU, а не на CPU.
Linux (максимум скорости и памяти). Adrenalin тут нет — память под GPU задаётся параметрами ядра. Рабочая связка: amdgpu.gttsize=131072 (открыть весь пул), ttm.pages_limit=33554432 и amd_iommu=off (последний даёт ~6% к пропускной способности). На Linux под GPU доступно до ~120 ГБ.
Какой бекенд. На Strix Halo надёжнее всего Vulkan (драйвер RADV). ROCm для этого чипа (gfx1151) пока в статусе Preview, а в Ollama ROCm-бекенд часто срывается на CPU. Практичный выбор: LM Studio (GUI, для старта), Ollama с Vulkan (API и автоматизация), llama.cpp (максимум контроля и скорости). NPU задействует в основном AMD Lemonade SDK — обычные Ollama/LM Studio его игнорируют.
Мощность. Для LLM оптимум — 85 Вт: переход на 120 Вт добавляет всего ~2%, потому что упор в память, а не в вычисления.
Ещё две мелочи, которые экономят память и нервы. Для моделей крупнее половины ОЗУ в llama.cpp полезен флаг --mmap 0 — иначе на единой памяти возникает конкуренция за буферы CPU и GPU. А если вы брали Ryzen AI именно ради NPU — на практике его задействует в основном AMD Lemonade SDK; обычные Ollama и LM Studio считают на iGPU и NPU не трогают.
Strix Halo против Mac, DGX Spark и дискретного GPU
Strix Halo — не единственный путь к большой единой памяти. Честное сравнение (проверенные спеки, по данным TerminalBytes на май 2026):Решение Память Пропускная способность Цена Strix Halo (128 ГБ) 128 ГБ 256 ГБ/с ~$3 299 Mac Studio M4 Max 128 ГБ 546 ГБ/с ~$3 699 Mac Studio M3 Ultra 96 ГБ 819 ГБ/с ~$3 999 NVIDIA DGX Spark 128 ГБ 273 ГБ/с ~$4 699 RTX 5090 (в десктопе) 32 ГБ 1792 ГБ/с ~$1 999 MSRP
Как это читать:
- Strix Halo выигрывает по цене за гигабайт быстрой памяти (~$25,8/ГБ против ~$41,7/ГБ у M3 Ultra) — это самый дешёвый способ загрузить 70B-класс целиком.
- Mac Studio выигрывает по скорости: при тех же 128 ГБ M4 Max вдвое быстрее по bandwidth за схожую цену. Если упор в токены/с на модели, которая и так влезает, — Mac разумнее.
- RTX 5090 в семь раз быстрее по памяти, но всего 32 ГБ — большую модель целиком не загрузить.
- Сборка на б/у RTX 3090 (~$1 500, 24 ГБ, ~936 ГБ/с) быстрее Strix Halo по памяти, но 24 ГБ не вместят 70B целиком, а связка из карт — это шум, жар и два слота PCIe.
- DGX Spark даёт сопоставимую со Strix Halo полосу за +$1 400, но с экосистемой CUDA (мы разбирали DGX Spark и Ryzen AI Halo, а также мини-ПК NVIDIA RTX Spark).
Короткий вывод: нужна ёмкость за разумные деньги — Strix Halo; нужна скорость — Mac Studio; задача укладывается в 32 ГБ — дискретный GPU.
Сколько стоит и какой бокс взять
Цены на Strix Halo-боксы скакнули: 128-ГБ модели стоили ~$2 000 на старте (2025), а к маю 2026 — около $3 300 из-за дефицита LPDDR5. Поэтому проверяйте актуальную розницу перед покупкой — обзоры с ценами полугодовой давности вводят в заблуждение.
Боксы на одном и том же чипе различаются охлаждением и шумом. Из тех, что мы освещали: Minix ER939-AI Pro (компактный, 2 ТБ SSD) и PELADN HO5. Если устройство стоит в спальне — смотрите на тихие варианты: под нагрузкой эти машины слышно.
Дешевле ли это, чем облако
Честно: для разового пользователя — нет. Бокс за $3 300, размазанный на три года, — это ~$90/мес до электричества; за эти деньги можно купить много токенов в API или взять подписку. Локальная сборка оправдана, когда есть хотя бы одно из:
- Приватность. Медицинские, юридические, NDA-данные не должны покидать вашу сеть — тогда вопрос не «дешевле ли», а «возможно ли вообще».
- Высокая утилизация. Если вы гоняете инференс целый день (кодовые агенты, пакетная обработка документов) — локально выходит дешевле API.
- Многозадачность. Та же машина крутит homelab, сборки, медиасервер — стоимость на задачу падает.
Плюс смена мышления: со своими «бесплатными токенами» экспериментируешь смелее, чем когда каждый запрос тикает счётчиком API.
Риски и ограничения
Честный блок слабых мест (с датами):
- Bandwidth — потолок скорости. 256 ГБ/с — примерно треть от Mac Studio или б/у RTX 3090. Для чата с короткими промптами незаметно, но для длинного контекста и RAG префилл будет ощутимо тормозить.
- Память распаяна. Нарастить её нельзя — сколько взяли, столько и будет. Апгрейд только внешним GPU.
- Внешний GPU — с оговоркой. На большинстве плат AMD-видеокарта по Oculink упирается в 120 Вт (ограничение BIOS); карты NVIDIA, по сообщениям владельцев (2026), не ограничены.
- Софт «на острие». Поддержка gfx1151 в ROCm — Preview (2026); рабочий путь — Vulkan/llama.cpp, ROCm-Ollama нестабилен. Ситуация быстро улучшается, но это не «поставил и забыл».
- Цена волатильна. Из-за дефицита LPDDR5 ценник плавает на сотни долларов — момент покупки имеет значение.
FAQ
Какую самую большую модель можно запустить? По ёмкости — вплоть до 120B+ (например, gpt-oss-120B ~59 ГБ или Mistral Large 123B Q4 ~68 ГБ). Но плотные модели уровня 70B+ идут на 3–5 токенов/с; для комфортной скорости берите MoE-модели и кванты Q4.
Windows или Linux? Для старта проще Windows: выделение памяти через Adrenalin делается в пару кликов. Для максимума скорости и памяти (до ~120 ГБ под GPU) — Linux с параметрами ядра и Vulkan/llama.cpp.
Это заменит видеокарту NVIDIA? Нет. Strix Halo берёт ёмкостью (грузит то, что не влезает в 24–32 ГБ GPU), но проигрывает в сырой скорости и зрелости экосистемы. По пропускной способности дискретные карты обгоняют его в разы (256 ГБ/с против ~1792 у RTX 5090) — но именно объём памяти решает, влезет ли большая модель вообще. Это «много памяти недорого», а не «быстрее RTX».
Нужен ли NPU на 50 TOPS для LLM? Для классического инференса LLM работает в основном iGPU, а не NPU. NPU задействуют отдельные стеки (AMD Lemonade SDK); обычные Ollama/LM Studio его, как правило, не используют.
Сколько памяти отдавать под графику? На 128-ГБ системе под LLM — 96 ГБ (Windows, Custom) или ~120 ГБ (Linux), оставив системе 8–32 ГБ. Для смешанной работы достаточно 64 ГБ.
Шумит ли такой мини-ПК? Под длительной нагрузкой — да, машину слышно (это не «тихий офисный неттоп»). Более крупные корпуса лучше держат температуру и шумят меньше, но занимают больше места — если устройство стоит рядом со спальным местом, выбирайте бокс с акцентом на охлаждение.




