Локальный LLM на Ryzen AI Max+ 395: что потянет

Коротко (TL;DR)

Ryzen AI Max+ 395 (кодовое имя Strix Halo) превращает компактный мини-ПК в машину для локального ИИ. Главное в нём — до 128 ГБ единой памяти, из которых до 96 ГБ (в Windows) или ~120 ГБ (в Linux) можно отдать встроенной графике. Это позволяет загрузить модели, которые не помещаются в обычную видеокарту на 24–32 ГБ: например, Llama 70B в Q4 (~40 ГБ).

Коротко (TL;DR)
Задача и бюджет
Что такое Ryzen AI Max+ 395 и почему он для LLM
Что реально потянет
Настройка: главное — отдать память под GPU
Strix Halo против Mac, DGX Spark и дискретного GPU
Брать сейчас или ждать Gorgon Halo: что меняет новое поколение
Сколько стоит и какой бокс взять
Дешевле ли это, чем облако
Риски и ограничения
FAQ

Расплата — скорость. Паспортная пропускная способность памяти 256 ГБ/с (примерно треть от Mac Studio и в семь раз меньше, чем у RTX 5090), фактически измеряют около 215 ГБ/с. Компактные и MoE-модели бегут быстро, плотные 70B+ — заметно медленнее. Кому подходит: тем, кому важна ёмкость и приватность, а не максимальная скорость; для чата, кода и лёгкого RAG — отлично, для тяжёлого длинного контекста — терпимо.

Цена выросла: 128-ГБ бокс сейчас стоит около $4 000, а собственная машина AMD — Ryzen AI Halo Developer Platform — вышла в США по $3 999 (июль 2026). Год назад такие устройства стоили ~$2 000.

И главное, чего не было в прошлой версии этого разбора: AMD подтвердила следующее поколение — Ryzen AI Max PRO 400 (Gorgon Halo) со 192 ГБ единой памяти, из которых до 160 ГБ отдаётся под VRAM. Ниже разбираем, что реально потянет текущий чип, как его настроить, и стоит ли ждать новый.

BYBIT EARNЗаставь крипту работатьПроценты на USDT и BTC без блокировки — деньги остаются под рукой.Разместить

(Данные актуальны на 23 июля 2026; цены и бенчмарки — с датами в тексте.)

Задача и бюджет

Эта сборка — под локальный инференс LLM: запуск языковых моделей у себя, без облака. Целевые сценарии: приватный чат-ассистент, локальный кодовый помощник, RAG по личным документам, эксперименты с большими открытыми моделями. Не цель — обучение моделей с нуля и максимальный tok/s (для этого нужен дискретный GPU или облако).

Бюджет: один мини-ПК на Ryzen AI Max+ 395 со 128 ГБ — около $4 000 (июль 2026). Это готовое устройство, а не сборка по компонентам: память распаяна, графика интегрирована. Фактически вы покупаете «коробку», а дальше всё решает настройка софта.

Важная оговорка по ожиданиям: это не «локальный флагман уровня ChatGPT». Современные топ-модели (Gemini, Claude Opus, модели класса GPT-5) слишком велики и требовательны для такого APU — локально вы запускаете открытые модели, а не их облачных конкурентов. Если нужна именно топовая скорость и качество — это по-прежнему дискретный GPU или облако.

Что такое Ryzen AI Max+ 395 и почему он для LLM

Strix Halo AMD позиционирует как самый мощный x86-APU на рынке. Ключевое:

CPU: 16 ядер Zen 5.
iGPU: Radeon 8060S, 40 вычислительных блоков RDNA 3.5.
NPU: XDNA2, 50+ TOPS.
Память: до 128 ГБ единой LPDDR5x-8000, пропускная способность 256 ГБ/с, общая для CPU и GPU.

Почему это важно. У обычной видеокарты фиксированная VRAM (16–32 ГБ), и модель, которая в неё не влезла, либо не грузится, либо уходит в медленный режим на CPU. Strix Halo стирает эту границу: и процессор, и графика обращаются к одному пулу памяти. До 96 ГБ (в Windows) можно объявить «видеопамятью» через AMD Variable Graphics Memory. Для сравнения: у конкурирующих APU обычно максимум 32 ГБ на упаковке — этого хватает на LLM примерно до 16 ГБ.

«Встроенная графика» здесь — обманчивый ярлык: iGPU видит весь пул памяти на полной скорости шины, без PCIe-бутылочного горлышка и без копирования данных туда-обратно.

Bybit · Rewards Hubдо $30,100Внеси депозит, торгуй 14 дней — и забери награды в Rewards HubЗабрать бонус →

Что реально потянет

Главный вопрос — не «влезет ли», а «с какой скоростью». Ниже — независимые замеры на llama.cpp (бекенд Vulkan, iGPU Radeon 8060S; по данным Valérian de Gaussan, ноябрь 2025). Prefill — скорость чтения промпта, decode — скорость генерации, которую вы ощущаете в чате.

Модель	Параметры / квант	Размер	Prefill, tk/s	Decode, tk/s
Llama 3.2 3B	3B Q4	1,9 ГБ	1912	93
gpt-oss-20B	20B MXFP4 (MoE)	11,3 ГБ	1216	77
Qwen3-Coder 30B	30B BF16	56,9 ГБ	154	9,2
gemma 3 27B	27B BF16	50,3 ГБ	104	3,9
Llama 3.3 70B	70B Q4	39,7 ГБ	78	5,1
gpt-oss-120B	120B MXFP4 (MoE)	59,0 ГБ	500	54
Mistral Large	123B Q4	68,2 ГБ	45	3,0

Что из этого следует:

Маленькие и средние квантованные модели бегут отлично (десятки токенов/с) — для чата и кода комфортно.
Плотные модели 70B+ запускаются, но медленно — 3–5 токенов/с: работать можно, если вы терпеливы.
MoE и экзотические кванты ломают правило «больше = медленнее»: gpt-oss-120B (архитектура MoE, квант MXFP4) выдаёт ~54 токена/с — быстрее, чем плотная 70B. Это ключевой вывод: для скорости на Strix Halo выбирайте MoE-модели и эффективные кванты, а не гонитесь за числом параметров.

Узкое место — пропускная способность памяти, а не вычисления. Поэтому архитектура модели и квант влияют на скорость сильнее, чем «сырой» размер. И считать надо от фактической полосы: измеряемые на Strix Halo ~215 ГБ/с заметно ниже паспортных 256 ГБ/с (данные llm-tracker.info, июль 2026).

Оговорка про цифры для 70B: замеры расходятся

Здесь придётся быть честными, потому что в сети гуляют две несовместимые оценки.

Таблица выше — именованный замер с указанным бекендом (llama.cpp, Vulkan) и датой (ноябрь 2025): плотная Llama 3.3 70B Q4 даёт 5,1 ток/с. При этом профильные публикации 2026 года заявляют для той же задачи 30–35 ток/с при полной загрузке модели в память iGPU — то есть в шесть раз больше.

Проверить второе на первоисточнике нам не удалось: авторы этих публикаций не называют ни бекенд, ни методику, ни версию ROCm. Правдоподобное объяснение — вызревание стека (ROCm для gfx1151 и llama.cpp за год заметно продвинулись, AMD выкатывала обновления ROCm и локального AI-сервера Lemonade), но это гипотеза, а не подтверждённый результат.

Практический вывод: закладывайтесь на нижнюю оценку. Если 5 ток/с на 70B вас устраивают — покупка оправдана в любом случае; если решение зависит от того, будет ли 30 ток/с, — дождитесь замера на своей связке ОС и бекенда, а не верьте обзорам на слово.

Пара практических заметок по квантованию и контексту. AMD рекомендует квант Q4_K_M для повседневных задач и Q6/Q8 — для кода, где важна точность. Контекстное окно 128K реально держать на моделях примерно до 30B; на 70B+ длинный контекст быстро съедает память под KV-кэш. Ёмкости хватает и под лёгкое дообучение: 12B-модель можно файнтюнить без квантования — это около 115 ГБ, что на дискретной потребительской карте недостижимо.

Настройка: главное — отдать память под GPU

Самая частая ошибка новичка: модель не грузится на iGPU, потому что система по умолчанию отдаёт графике мало памяти. Чинится одним шагом.

Windows (проще всего). AMD Software: Adrenalin → Performance → Tuning → Variable Graphics Memory. Пресеты на 128-ГБ системе: Low ~16 ГБ, Medium ~32 ГБ, High ~64 ГБ, Custom до 96 ГБ. Для 70B-моделей ставьте Custom 96 ГБ (системе останется 32 ГБ) и перезагрузитесь — это перераспределение на уровне BIOS. Затем в LM Studio выставьте GPU Offload = max, а в Ollama проверьте командой ollama ps, что модель легла на GPU, а не на CPU.

Linux (максимум скорости и памяти). Adrenalin тут нет — память под GPU задаётся параметрами ядра. Рабочая связка: amdgpu.gttsize=131072 (открыть весь пул), ttm.pages_limit=33554432 и amd_iommu=off (последний даёт ~6% к пропускной способности). На Linux под GPU доступно до ~120 ГБ.

Какой бекенд. На Strix Halo надёжнее всего Vulkan (драйвер RADV). ROCm для этого чипа (gfx1151) пока в статусе Preview, а в Ollama ROCm-бекенд часто срывается на CPU. Практичный выбор: LM Studio (GUI, для старта), Ollama с Vulkan (API и автоматизация), llama.cpp (максимум контроля и скорости). NPU задействует в основном AMD Lemonade SDK — обычные Ollama/LM Studio его игнорируют.

Мощность. Для LLM оптимум — 85 Вт: переход на 120 Вт добавляет всего ~2%, потому что упор в память, а не в вычисления.

Ещё две мелочи, которые экономят память и нервы. Для моделей крупнее половины ОЗУ в llama.cpp полезен флаг --mmap 0 — иначе на единой памяти возникает конкуренция за буферы CPU и GPU. А если вы брали Ryzen AI именно ради NPU — на практике его задействует в основном AMD Lemonade SDK; обычные Ollama и LM Studio считают на iGPU и NPU не трогают.

Strix Halo против Mac, DGX Spark и дискретного GPU

Strix Halo — не единственный путь к большой единой памяти. Честное сравнение (проверенные спеки, по данным TerminalBytes на май 2026):

Решение	Память	Пропускная способность	Цена
Strix Halo (128 ГБ)	128 ГБ	256 ГБ/с (факт. ~215)	~$3 999
Mac Studio M4 Max	128 ГБ	546 ГБ/с	~$3 699
Mac Studio M3 Ultra	96 ГБ	819 ГБ/с	~$3 999
NVIDIA DGX Spark	128 ГБ	273 ГБ/с	~$4 699
RTX 5090 (в десктопе)	32 ГБ	1792 ГБ/с	~$1 999 MSRP

Как это читать:

Strix Halo выигрывает по цене за гигабайт быстрой памяти (~$31,2/ГБ против ~$41,7/ГБ у M3 Ultra; год назад разрыв был вдвое больше) — это самый дешёвый способ загрузить 70B-класс целиком.
Mac Studio выигрывает по скорости: при тех же 128 ГБ M4 Max вдвое быстрее по bandwidth за схожую цену. Если упор в токены/с на модели, которая и так влезает, — Mac разумнее.
RTX 5090 в семь раз быстрее по памяти, но всего 32 ГБ — большую модель целиком не загрузить.
Сборка на б/у RTX 3090 (~$1 500, 24 ГБ, ~936 ГБ/с) быстрее Strix Halo по памяти, но 24 ГБ не вместят 70B целиком, а связка из карт — это шум, жар и два слота PCIe.
DGX Spark даёт сопоставимую со Strix Halo полосу за +$1 400, но с экосистемой CUDA (мы разбирали DGX Spark и Ryzen AI Halo, а также мини-ПК NVIDIA RTX Spark).

Короткий вывод: нужна ёмкость за разумные деньги — Strix Halo; нужна скорость — Mac Studio; задача укладывается в 32 ГБ — дискретный GPU.

Брать сейчас или ждать Gorgon Halo: что меняет новое поколение

20 мая 2026 года AMD подтвердила серию Ryzen AI Max PRO 400 под кодовым именем Gorgon Halo. Для локального инференса это самое важное событие с момента выхода Strix Halo — но по причине, которая не очевидна из заголовков.

Параметр	Ryzen AI Max+ 395 (Strix Halo)	Ryzen AI Max+ PRO 495 (Gorgon Halo)
Ядра CPU	16 Zen 5 / 32 потока	16 Zen 5 / 32 потока
Буст CPU	5,1 ГГц	5,2 ГГц
iGPU	40 CU RDNA 3.5	40 CU RDNA 3.5
Буст GPU	2,9 ГГц	3,0 ГГц
NPU	50 TOPS	55 TOPS
Единая память	до 128 ГБ LPDDR5x-8000	до 192 ГБ LPDDR5x-8000
Максимум под VRAM	~96 ГБ (Windows) / ~120 ГБ (Linux)	до 160 ГБ

Посмотрите на таблицу внимательно: весь прирост — по памяти. Плюс 100 МГц к процессору, плюс 100 МГц к графике, плюс 5 TOPS к NPU — это погрешность, а не поколение. Меняется одно: потолок ёмкости растёт в полтора раза, и AMD на этом основании называет PRO 495 первым клиентским x86-чипом, способным держать локальные модели на 300+ млрд параметров.

Что это значит на практике:

Скорость не вырастет. Узкое место — пропускная способность памяти, а она осталась той же (LPDDR5x-8000). Модель, которая сегодня идёт на 5 ток/с, на новом чипе пойдёт примерно так же.
Откроется класс моделей, который сейчас не влезает. 160 ГБ под VRAM — это плотные модели уровня 120B в 8-битном кванте или очень длинный контекст на 70B без вытеснения KV-кэша.
Ждать имеет смысл, только если вам нужна именно ёмкость. Если ваши модели и так помещаются в 96–120 ГБ — новое поколение не даст вам ничего.

По срокам: AMD официально называет лишь «скоро». Вариант её собственной машины на PRO 495 ожидается в третьем квартале 2026 года, цена не объявлена. Framework уже показал десктоп на этом чипе со 192 ГБ, но тоже без даты и ценника — то есть на момент публикации купить Gorgon Halo нельзя нигде.

Отдельная деталь для тех, кто смотрит на младшие модели: в обновлённой линейке чипы 392 и 388 сохраняют полный 40-блочный iGPU Radeon 8060S вместо урезанного 32-блочного 8050S у прежних 390/385. Для локальных языковых моделей это важнее числа ядер процессора — потолок графики у младших SKU теперь такой же, как у флагмана. Данные по младшим SKU идут из профильного разбора, официальной таблицей AMD мы их подтвердить не смогли.

Сколько стоит и какой бокс взять

Цены на Strix Halo-боксы выросли почти вдвое: 128-ГБ модели стоили ~$2 000 на старте (2025), а к июлю 2026 сместились к отметке около $4 000 из-за дефицита LPDDR5. Поэтому проверяйте актуальную розницу перед покупкой — обзоры с ценами полугодовой давности вводят в заблуждение.

Ориентир рынка теперь задаёт сама AMD. В июле 2026 года вышла её собственная машина — Ryzen AI Halo Developer Platform: Ryzen AI Max+ 395, 128 ГБ, цена $3 999. Продаётся она пока только в США и только через одного ритейлера (Micro Center), причём самовывозом. Показательно, что этот ценник ровно совпадает со стартовой ценой Nvidia DGX Spark: конфигурация Framework Desktop на 128 ГБ с расширением попадает в тот же диапазон, так что это не премия AMD, а уровень, к которому пришёл весь класс устройств.

Боксы на одном и том же чипе различаются охлаждением и шумом. Из тех, что мы освещали: Minix ER939-AI Pro (компактный, 2 ТБ SSD) и PELADN HO5. Если устройство стоит в спальне — смотрите на тихие варианты: под нагрузкой эти машины слышно.

Дешевле ли это, чем облако

Честно: для разового пользователя — нет. Бокс за $4 000, размазанный на три года, — это ~$111/мес до электричества; за эти деньги можно купить много токенов в API или взять подписку. Локальная сборка оправдана, когда есть хотя бы одно из:

Приватность. Медицинские, юридические, NDA-данные не должны покидать вашу сеть — тогда вопрос не «дешевле ли», а «возможно ли вообще».
Высокая утилизация. Если вы гоняете инференс целый день (кодовые агенты, пакетная обработка документов) — локально выходит дешевле API.
Многозадачность. Та же машина крутит homelab, сборки, медиасервер — стоимость на задачу падает.

Плюс смена мышления: со своими «бесплатными токенами» экспериментируешь смелее, чем когда каждый запрос тикает счётчиком API.

Риски и ограничения

Честный блок слабых мест (с датами):

Bandwidth — потолок скорости. Паспортные 256 ГБ/с (фактически измеряют ~215 ГБ/с) — примерно треть от Mac Studio или б/у RTX 3090. Для чата с короткими промптами незаметно, но для длинного контекста и RAG префилл будет ощутимо тормозить.
Память распаяна. Нарастить её нельзя — сколько взяли, столько и будет. Апгрейд только внешним GPU.
Внешний GPU — с оговоркой. На большинстве плат AMD-видеокарта по Oculink упирается в 120 Вт (ограничение BIOS); карты NVIDIA, по сообщениям владельцев (2026), не ограничены.
Софт «на острие». Поддержка gfx1151 в ROCm — Preview (2026); рабочий путь — Vulkan/llama.cpp, ROCm-Ollama нестабилен. Ситуация быстро улучшается, но это не «поставил и забыл».
Цена волатильна и выросла. Из-за дефицита LPDDR5 ценник за год ушёл с ~$2 000 к ~$4 000 (июль 2026) — момент покупки имеет значение.
Новое поколение не ускорит. Gorgon Halo (192 ГБ) поднимает только ёмкость: пропускная способность памяти та же, значит токены в секунду на уже влезающих моделях не вырастут.
Сроков нового чипа нет. AMD говорит «скоро»; вариант её машины на PRO 495 ожидается в Q3 2026 без объявленной цены — планировать покупку по этой дате рискованно.

FAQ

Какую самую большую модель можно запустить? По ёмкости — вплоть до 120B+ (например, gpt-oss-120B ~59 ГБ или Mistral Large 123B Q4 ~68 ГБ). Но плотные модели уровня 70B+ идут на 3–5 токенов/с; для комфортной скорости берите MoE-модели и кванты Q4.

Windows или Linux? Для старта проще Windows: выделение памяти через Adrenalin делается в пару кликов. Для максимума скорости и памяти (до ~120 ГБ под GPU) — Linux с параметрами ядра и Vulkan/llama.cpp.

Это заменит видеокарту NVIDIA? Нет. Strix Halo берёт ёмкостью (грузит то, что не влезает в 24–32 ГБ GPU), но проигрывает в сырой скорости и зрелости экосистемы. По пропускной способности дискретные карты обгоняют его в разы (256 ГБ/с против ~1792 у RTX 5090) — но именно объём памяти решает, влезет ли большая модель вообще. Это «много памяти недорого», а не «быстрее RTX».

Нужен ли NPU на 50 TOPS для LLM? Для классического инференса LLM работает в основном iGPU, а не NPU. NPU задействуют отдельные стеки (AMD Lemonade SDK); обычные Ollama/LM Studio его, как правило, не используют.

Ждать Gorgon Halo или брать 395 сейчас? Зависит от того, упираетесь ли вы в ёмкость. Новый Ryzen AI Max+ PRO 495 даёт 192 ГБ памяти (до 160 ГБ под VRAM), но по вычислениям это тот же чип: +100 МГц к CPU и GPU, 55 TOPS против 50. Скорость генерации не вырастет, потому что пропускная способность памяти прежняя. Ждать стоит, если ваши модели не помещаются в 96–120 ГБ; во всех остальных случаях разницы не будет. Купить его на момент публикации всё равно негде — сроков AMD не называет.

Сколько памяти отдавать под графику? На 128-ГБ системе под LLM — 96 ГБ (Windows, Custom) или ~120 ГБ (Linux), оставив системе 8–32 ГБ. Для смешанной работы достаточно 64 ГБ.

Шумит ли такой мини-ПК? Под длительной нагрузкой — да, машину слышно (это не «тихий офисный неттоп»). Более крупные корпуса лучше держат температуру и шумят меньше, но занимают больше места — если устройство стоит рядом со спальным местом, выбирайте бокс с акцентом на охлаждение.