Ryzen AI Max+ 395 для нейросетей: какие модели реально запустишь локально и с какой скоростью

Коротко (TL;DR)

Ryzen AI Max+ 395 (кодовое имя Strix Halo) превращает компактный мини-ПК в машину для локального ИИ. Главное в нём — до 128 ГБ единой памяти, из которых до 96 ГБ (в Windows) или ~120 ГБ (в Linux) можно отдать встроенной графике. Это позволяет загрузить модели, которые не помещаются в обычную видеокарту на 24–32 ГБ: например, Llama 70B в Q4 (~40 ГБ).

Расплата — скорость. Пропускная способность памяти 256 ГБ/с (примерно треть от Mac Studio и в семь раз меньше, чем у RTX 5090), поэтому генерация на плотной 70B-модели — около 5 токенов/с, а быстро бегут компактные и MoE-модели. Кому подходит: тем, кому важна ёмкость и приватность, а не максимальная скорость; для чата, кода и лёгкого RAG — отлично, для тяжёлого длинного контекста — терпимо.

Цена 128-ГБ бокса — около $3 300 (на май 2026; полгода назад было ~$2 000). Ниже — что именно потянет с цифрами, как настроить и с чем сравнить.

(Данные актуальны на 15 июня 2026; цены и бенчмарки — с датами в тексте.)

Задача и бюджет

Эта сборка — под локальный инференс LLM: запуск языковых моделей у себя, без облака. Целевые сценарии: приватный чат-ассистент, локальный кодовый помощник, RAG по личным документам, эксперименты с большими открытыми моделями. Не цель — обучение моделей с нуля и максимальный tok/s (для этого нужен дискретный GPU или облако).

Бюджет: один мини-ПК на Ryzen AI Max+ 395 со 128 ГБ — около $3 300 (май 2026). Это готовое устройство, а не сборка по компонентам: память распаяна, графика интегрирована. Фактически вы покупаете «коробку», а дальше всё решает настройка софта.

Важная оговорка по ожиданиям: это не «локальный флагман уровня ChatGPT». Современные топ-модели (Gemini, Claude Opus, модели класса GPT-5) слишком велики и требовательны для такого APU — локально вы запускаете открытые модели, а не их облачных конкурентов. Если нужна именно топовая скорость и качество — это по-прежнему дискретный GPU или облако.

Что такое Ryzen AI Max+ 395 и почему он для LLM

Strix Halo AMD позиционирует как самый мощный x86-APU на рынке. Ключевое:

  • CPU: 16 ядер Zen 5.
  • iGPU: Radeon 8060S, 40 вычислительных блоков RDNA 3.5.
  • NPU: XDNA2, 50+ TOPS.
  • Память: до 128 ГБ единой LPDDR5x-8000, пропускная способность 256 ГБ/с, общая для CPU и GPU.

Почему это важно. У обычной видеокарты фиксированная VRAM (16–32 ГБ), и модель, которая в неё не влезла, либо не грузится, либо уходит в медленный режим на CPU. Strix Halo стирает эту границу: и процессор, и графика обращаются к одному пулу памяти. До 96 ГБ (в Windows) можно объявить «видеопамятью» через AMD Variable Graphics Memory. Для сравнения: у конкурирующих APU обычно максимум 32 ГБ на упаковке — этого хватает на LLM примерно до 16 ГБ.

«Встроенная графика» здесь — обманчивый ярлык: iGPU видит весь пул памяти на полной скорости шины, без PCIe-бутылочного горлышка и без копирования данных туда-обратно.

Что реально потянет

Главный вопрос — не «влезет ли», а «с какой скоростью». Ниже — независимые замеры на llama.cpp (бекенд Vulkan, iGPU Radeon 8060S; по данным Valérian de Gaussan, ноябрь 2025). Prefill — скорость чтения промпта, decode — скорость генерации, которую вы ощущаете в чате.

МодельПараметры / квантРазмерPrefill, tk/sDecode, tk/s
Llama 3.2 3B3B Q41,9 ГБ191293
gpt-oss-20B20B MXFP4 (MoE)11,3 ГБ121677
Qwen3-Coder 30B30B BF1656,9 ГБ1549,2
gemma 3 27B27B BF1650,3 ГБ1043,9
Llama 3.3 70B70B Q439,7 ГБ785,1
gpt-oss-120B120B MXFP4 (MoE)59,0 ГБ50054
Mistral Large123B Q468,2 ГБ453,0

Что из этого следует:

  • Маленькие и средние квантованные модели бегут отлично (десятки токенов/с) — для чата и кода комфортно.
  • Плотные модели 70B+ запускаются, но медленно — 3–5 токенов/с: работать можно, если вы терпеливы.
  • MoE и экзотические кванты ломают правило «больше = медленнее»: gpt-oss-120B (архитектура MoE, квант MXFP4) выдаёт ~54 токена/с — быстрее, чем плотная 70B. Это ключевой вывод: для скорости на Strix Halo выбирайте MoE-модели и эффективные кванты, а не гонитесь за числом параметров.

Узкое место — пропускная способность памяти, а не вычисления. Поэтому архитектура модели и квант влияют на скорость сильнее, чем «сырой» размер.

Пара практических заметок по квантованию и контексту. AMD рекомендует квант Q4_K_M для повседневных задач и Q6/Q8 — для кода, где важна точность. Контекстное окно 128K реально держать на моделях примерно до 30B; на 70B+ длинный контекст быстро съедает память под KV-кэш. Ёмкости хватает и под лёгкое дообучение: 12B-модель можно файнтюнить без квантования — это около 115 ГБ, что на дискретной потребительской карте недостижимо.

Настройка: главное — отдать память под GPU

Самая частая ошибка новичка: модель не грузится на iGPU, потому что система по умолчанию отдаёт графике мало памяти. Чинится одним шагом.

Windows (проще всего). AMD Software: Adrenalin → Performance → Tuning → Variable Graphics Memory. Пресеты на 128-ГБ системе: Low ~16 ГБ, Medium ~32 ГБ, High ~64 ГБ, Custom до 96 ГБ. Для 70B-моделей ставьте Custom 96 ГБ (системе останется 32 ГБ) и перезагрузитесь — это перераспределение на уровне BIOS. Затем в LM Studio выставьте GPU Offload = max, а в Ollama проверьте командой ollama ps, что модель легла на GPU, а не на CPU.

Linux (максимум скорости и памяти). Adrenalin тут нет — память под GPU задаётся параметрами ядра. Рабочая связка: amdgpu.gttsize=131072 (открыть весь пул), ttm.pages_limit=33554432 и amd_iommu=off (последний даёт ~6% к пропускной способности). На Linux под GPU доступно до ~120 ГБ.

Какой бекенд. На Strix Halo надёжнее всего Vulkan (драйвер RADV). ROCm для этого чипа (gfx1151) пока в статусе Preview, а в Ollama ROCm-бекенд часто срывается на CPU. Практичный выбор: LM Studio (GUI, для старта), Ollama с Vulkan (API и автоматизация), llama.cpp (максимум контроля и скорости). NPU задействует в основном AMD Lemonade SDK — обычные Ollama/LM Studio его игнорируют.

Мощность. Для LLM оптимум — 85 Вт: переход на 120 Вт добавляет всего ~2%, потому что упор в память, а не в вычисления.

Ещё две мелочи, которые экономят память и нервы. Для моделей крупнее половины ОЗУ в llama.cpp полезен флаг --mmap 0 — иначе на единой памяти возникает конкуренция за буферы CPU и GPU. А если вы брали Ryzen AI именно ради NPU — на практике его задействует в основном AMD Lemonade SDK; обычные Ollama и LM Studio считают на iGPU и NPU не трогают.

Strix Halo против Mac, DGX Spark и дискретного GPU

Strix Halo — не единственный путь к большой единой памяти. Честное сравнение (проверенные спеки, по данным TerminalBytes на май 2026):

РешениеПамятьПропускная способностьЦена
Strix Halo (128 ГБ)128 ГБ256 ГБ/с~$3 299
Mac Studio M4 Max128 ГБ546 ГБ/с~$3 699
Mac Studio M3 Ultra96 ГБ819 ГБ/с~$3 999
NVIDIA DGX Spark128 ГБ273 ГБ/с~$4 699
RTX 5090 (в десктопе)32 ГБ1792 ГБ/с~$1 999 MSRP

Как это читать:

  • Strix Halo выигрывает по цене за гигабайт быстрой памяти (~$25,8/ГБ против ~$41,7/ГБ у M3 Ultra) — это самый дешёвый способ загрузить 70B-класс целиком.
  • Mac Studio выигрывает по скорости: при тех же 128 ГБ M4 Max вдвое быстрее по bandwidth за схожую цену. Если упор в токены/с на модели, которая и так влезает, — Mac разумнее.
  • RTX 5090 в семь раз быстрее по памяти, но всего 32 ГБ — большую модель целиком не загрузить.
  • Сборка на б/у RTX 3090 (~$1 500, 24 ГБ, ~936 ГБ/с) быстрее Strix Halo по памяти, но 24 ГБ не вместят 70B целиком, а связка из карт — это шум, жар и два слота PCIe.
  • DGX Spark даёт сопоставимую со Strix Halo полосу за +$1 400, но с экосистемой CUDA (мы разбирали DGX Spark и Ryzen AI Halo, а также мини-ПК NVIDIA RTX Spark).

Короткий вывод: нужна ёмкость за разумные деньги — Strix Halo; нужна скорость — Mac Studio; задача укладывается в 32 ГБ — дискретный GPU.

Сколько стоит и какой бокс взять

Цены на Strix Halo-боксы скакнули: 128-ГБ модели стоили ~$2 000 на старте (2025), а к маю 2026 — около $3 300 из-за дефицита LPDDR5. Поэтому проверяйте актуальную розницу перед покупкой — обзоры с ценами полугодовой давности вводят в заблуждение.

Боксы на одном и том же чипе различаются охлаждением и шумом. Из тех, что мы освещали: Minix ER939-AI Pro (компактный, 2 ТБ SSD) и PELADN HO5. Если устройство стоит в спальне — смотрите на тихие варианты: под нагрузкой эти машины слышно.

Дешевле ли это, чем облако

Честно: для разового пользователя — нет. Бокс за $3 300, размазанный на три года, — это ~$90/мес до электричества; за эти деньги можно купить много токенов в API или взять подписку. Локальная сборка оправдана, когда есть хотя бы одно из:

  • Приватность. Медицинские, юридические, NDA-данные не должны покидать вашу сеть — тогда вопрос не «дешевле ли», а «возможно ли вообще».
  • Высокая утилизация. Если вы гоняете инференс целый день (кодовые агенты, пакетная обработка документов) — локально выходит дешевле API.
  • Многозадачность. Та же машина крутит homelab, сборки, медиасервер — стоимость на задачу падает.

Плюс смена мышления: со своими «бесплатными токенами» экспериментируешь смелее, чем когда каждый запрос тикает счётчиком API.

Риски и ограничения

Честный блок слабых мест (с датами):

  • Bandwidth — потолок скорости. 256 ГБ/с — примерно треть от Mac Studio или б/у RTX 3090. Для чата с короткими промптами незаметно, но для длинного контекста и RAG префилл будет ощутимо тормозить.
  • Память распаяна. Нарастить её нельзя — сколько взяли, столько и будет. Апгрейд только внешним GPU.
  • Внешний GPU — с оговоркой. На большинстве плат AMD-видеокарта по Oculink упирается в 120 Вт (ограничение BIOS); карты NVIDIA, по сообщениям владельцев (2026), не ограничены.
  • Софт «на острие». Поддержка gfx1151 в ROCm — Preview (2026); рабочий путь — Vulkan/llama.cpp, ROCm-Ollama нестабилен. Ситуация быстро улучшается, но это не «поставил и забыл».
  • Цена волатильна. Из-за дефицита LPDDR5 ценник плавает на сотни долларов — момент покупки имеет значение.

FAQ

Какую самую большую модель можно запустить? По ёмкости — вплоть до 120B+ (например, gpt-oss-120B ~59 ГБ или Mistral Large 123B Q4 ~68 ГБ). Но плотные модели уровня 70B+ идут на 3–5 токенов/с; для комфортной скорости берите MoE-модели и кванты Q4.

Windows или Linux? Для старта проще Windows: выделение памяти через Adrenalin делается в пару кликов. Для максимума скорости и памяти (до ~120 ГБ под GPU) — Linux с параметрами ядра и Vulkan/llama.cpp.

Это заменит видеокарту NVIDIA? Нет. Strix Halo берёт ёмкостью (грузит то, что не влезает в 24–32 ГБ GPU), но проигрывает в сырой скорости и зрелости экосистемы. По пропускной способности дискретные карты обгоняют его в разы (256 ГБ/с против ~1792 у RTX 5090) — но именно объём памяти решает, влезет ли большая модель вообще. Это «много памяти недорого», а не «быстрее RTX».

Нужен ли NPU на 50 TOPS для LLM? Для классического инференса LLM работает в основном iGPU, а не NPU. NPU задействуют отдельные стеки (AMD Lemonade SDK); обычные Ollama/LM Studio его, как правило, не используют.

Сколько памяти отдавать под графику? На 128-ГБ системе под LLM — 96 ГБ (Windows, Custom) или ~120 ГБ (Linux), оставив системе 8–32 ГБ. Для смешанной работы достаточно 64 ГБ.

Шумит ли такой мини-ПК? Под длительной нагрузкой — да, машину слышно (это не «тихий офисный неттоп»). Более крупные корпуса лучше держат температуру и шумят меньше, но занимают больше места — если устройство стоит рядом со спальным местом, выбирайте бокс с акцентом на охлаждение.

Поделиться
Связаться:
Крипто- и data-аналитик, инженер-программист (факультет компьютерных наук ХНУРЭ). В IT с 2008 года: администрировал корпоративный мониторинг в «Vodafone Украина», семь лет разрабатывал и продвигал веб-проекты, пять лет руководил маркетингом на метриках — конверсия, CTR, ROI, LTV.Криптовалютными рынками занимаюсь с 2021 года: ончейн-метрики, токеномика, макроэкономические индикаторы. Разработал собственную data-driven модель анализа рынка на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математическая статистика и EDA; сбор и сверку данных автоматизирую AI-агентами.Принцип — «Don't trust, verify»: каждая цифра проверена по первоисточнику, ключевые — минимум по двум независимым; прогнозы — только сценарии с условиями. Тезис без данных не публикуется.