Залізо для локального ШІ у 2026: як вибрати

Коротко (TL;DR)

Залізо для локального ШІ вибирається не «яка відеокарта потужніша», а за простим алгоритмом: спершу модель — потім залізо. Визначте, які моделі вам потрібні (7–14B / 32B / 70B / 200B+) і який контекст — це задає мінімум пам’яті. Потім у межах бюджету беріть максимум пропускної здатності під цей обсяг. І тільки потім обирайте екосистему (NVIDIA/CUDA проти альтернатив) — за готовністю морочитися із софтом.

Коротко (TL;DR)
З чого почати: алгоритм вибору
Дві осі: ємність і швидкість
Майстер-таблиця: рішення 2026
Вибір за бюджетом
Вибір за задачею
Софт і екосистема: прихована ціна альтернатив
Часті помилки та ризики
FAQ

Дві речі плутають найчастіше. Ємність пам’яті вирішує, що взагалі влізе; пропускна здатність — як швидко підуть токени. Це різні осі: 128 ГБ unified-пам’яті вміщують величезну модель, але на скромній пропускній здатності щільна 70B повзтиме. А якщо модель не влізла і «потекла» в системну RAM — швидкість обвалюється з комфортних 50–100 до 2–5 токенів/с.

Нижче — цей алгоритм по кроках, майстер-таблиця всіх актуальних рішень 2026 (від $250 до $8 500+) і конкретні рекомендації за бюджетом і задачею. Кожне рішення — з посиланням на детальний розбір серії, якщо захочете заглибитися.

(Дані актуальні на 16 червня 2026; ціни й характеристики — з датами в тексті.)

до 500 USDC

Реферальний марафон Binanceдо 500 USDCЗапрошуй друзів, відкривай Mystery Box і вигравай суперпризи. Акція до 26.06.2026.Долучайся

З чого почати: алгоритм вибору

Не починайте з бренду чи «топової» карти. Почніть із трьох питань по порядку — вони відсікають зайве найшвидше.

Які моделі і який контекст? Це визначає мінімум пам’яті. Грубий орієнтир: 7–8B комфортно живуть у 12 ГБ, 14B — у 16–24 ГБ, 32B у квантуванні — у 24 ГБ, щільна 70B у 4-біт просить ~40–48 ГБ, а frontier-моделі 200B–671B потребують unified-пам’ять на 128–512 ГБ. Врахуйте контекст: у 8B-моделі кожні 1000 токенів діалогу — це ще ~134 МБ пам’яті під KV-кеш, а вікно 32K додає майже пів гігабайта понад ваги.
Скільки пропускної здатності дає бюджет під цей обсяг? Коли модель уже влізла, саме пропускна здатність пам’яті визначає швидкість генерації. Беріть максимум ПЗ, який дозволяє бюджет за потрібної ємності.
Чи готові ви до екосистеми без CUDA? NVIDIA працює «з коробки» всюди; Apple (MLX/Metal), AMD (ROCm) та Intel (Vulkan/SYCL) дають ємність або ціну, але потребують зусиль із налаштування.

Приклад. Мета — приватний кодинг-асистент на Qwen 32B з контекстом 16K. Крок 1: 32B у квантуванні просить ~24 ГБ плюс запас під контекст — отже, мінімум 24 ГБ. Крок 2: у бюджеті до $900 максимум пропускної здатності за 24 ГБ дає б/в RTX 3090 (936 ГБ/с) — вона швидша, ніж міні-бокс на 128 ГБ, якого тут і не потрібно. Крок 3: на NVIDIA весь софт заведеться одразу. Підсумок — RTX 3090, а не «найдорожча» карта і не «наймісткіший» бокс. Той самий алгоритм однаково відсікає зайве і для 8B-чату, і для frontier-моделі.

Цей порядок — пам’ять → швидкість → екосистема — економить і гроші, і нерви: він не дає купити швидкий, але маломісткий GPU під велику модель або місткий, але повільний бокс під швидкісну задачу.

Дві осі: ємність і швидкість

Головна плутанина новачка — міряти залізо «потужністю чипа». Для текстової генерації це вторинно. Працюють дві незалежні осі.

Ємність (що влізе). Ваги моделі, KV-кеш контексту і проміжні обчислення мають цілком поміститися у швидку пам’ять — відеопам’ять GPU або unified-пам’ять. Не помістилися — система вивантажує частину в повільну системну RAM, і настає «обрив»: швидкість падає з 50–100 до 2–5 токенів/с, повільніше, ніж друкує людина. Саме тому «впритул» по пам’яті гірше, ніж здається: один крок за ліміт — і продуктивність руйнується.

Швидкість (як швидко). Коли модель завантажена, генерація кожного токена — це прокачка всіх потрібних ваг із пам’яті у обчислювальні ядра. Тому швидкість майже лінійно залежить від пропускної здатності пам’яті, а не від «сили» чипа. Умовна драбина ПЗ: Strix Halo і DGX Spark — ~256–273 ГБ/с, Intel Arc B580 — 456, Mac M4 Max — 546, Mac M3 Ultra — 819, б/в RTX 3090 — 936, RX 7900 XTX — 960, RTX 5090 і RTX PRO 6000 — 1 792 ГБ/с. Чим вище — тим швидше йдуть токени на влазній моделі.

Звідси практичний наслідок: unified-пам’ять — це про ємність, дискретний GPU з високою ПЗ — про швидкість. 128 ГБ у міні-боксі дозволяють завантажити модель, яку не вмістить жодна споживча відеокарта, — але щільна 70B на 256 ГБ/с піде ~2–4 ток/с. Зате MoE-моделі (де на кожен токен активна лише частина параметрів) на тій самій машині літають: gpt-oss-120B видає ~30 ток/с. Це і є «MoE-розворот», який змінює розрахунок для unified-боксів.

до 500 USDC

Майстер-таблиця: рішення 2026

Усі актуальні шляхи для домашнього інференсу, від найдешевшого входу до frontier-ємності. Ціни й характеристики — на червень 2026; за кліком на рішення — детальний розбір.

Рішення	Пам’ять	ПЗ, ГБ/с	Ціна	Під що
Intel Arc B580	12 ГБ	456	$250	найдешевший вхід, 7–14B
б/в RTX 3090	24 ГБ	936	~$700	24-ГБ sweet spot, є NVLink
AMD RX 7900 XTX	24 ГБ	960	~$800	24 ГБ на AMD/ROCm, Linux
Збірка 2× RTX 3090	48 ГБ	936	~$2 500	70B бюджетно через NVLink
Mac Mini M4 Pro	до 64 ГБ	273	$1 400–2 400	дешевий вхід в unified
Framework Desktop	128 ГБ	256	~$2 000	MoE + контекст, DIY/кластер
NVIDIA DGX Spark	128 ГБ	273	$4 699	CUDA-стек на 128 ГБ
Збірка на RTX 5090	32 ГБ	1 792	~$4 500	максимум швидкості ≤32 ГБ
Воркстейшн RTX PRO 6000	96 ГБ	1 792	$8 500+	70B у FP8 на одній карті
Mac Studio M3 Ultra	до 512 ГБ	819	від $4 000	200B–671B вдома

База всіх міні-боксів на 128 ГБ — чип AMD Ryzen AI Max+ 395 (Strix Halo); як він працює і що тягне, розібрано в базовій статті серії.

Кожен рядок таблиці — це окремий детальний огляд серії: токеноміка швидкості, BOM збірки, реальні бенчмарки і чесні ризики конкретного рішення. Цей гід — карта, по якій обираєте напрямок; огляд пристрою — глибоке занурення в обране. Якщо вже знаєте свій бюджет і задачу, переходьте одразу в потрібний розбір; якщо ні — пройдіть два розділи нижче.

Відеопам'ять/ємність по рішеннях 2026, ГБ

Вибір за бюджетом

До $300 — спробувати. Intel Arc B580 (12 ГБ, $250) — найдешевший серйозний вхід: тягне 7–8B і 14B у квантуванні на рівні RTX 3060. Головна складність не в карті, а в софті Intel (стандартний Ollama не прискорює Arc). Альтернатива — б/в RTX 3060 12 ГБ зі зрілою CUDA.

$700–900 — золота середина. Клас 24 ГБ: б/в RTX 3090 (з NVLink) або нова RX 7900 XTX. 24 ГБ стали «магічною цифрою» сегмента — тримають 13B цілком, 32B у квантуванні і 70B у 4-біт з частковим вивантаженням. NVIDIA простіша в софті, AMD дешевша й новіша, але на Linux і ROCm.

$2 000–2 800 — ємність або потужна одиночна карта. Тут розвилка. Потрібна ємність під MoE і великий контекст — міні-бокс на 128 ГБ (Framework Desktop, ~$2 000) або Mac Mini M4 Pro (до 64 ГБ unified, $1 400–2 400) як м’який вхід в екосистему Apple. Потрібна швидкість — у цей бюджет влазить одиночна RTX 5090 (~$2 200–2 500), якщо є куди її поставити; повна збірка на ній — уже наступний тир.

$4 000+ — професійний рівень. Mac Studio M3 Ultra (до 512 ГБ) — єдиний готовий домашній шлях до моделей 200B–671B (альтернатива — кластер міні-боксів). DGX Spark ($4 699) — ті самі 128 ГБ, але з повним стеком CUDA. Повна збірка на RTX 5090 (~$4 500) дає максимум швидкості на моделях ≤32 ГБ. А RTX PRO 6000 (96 ГБ ECC, $8 500+) вантажить 70B у високій точності на одній карті без мультикарти.

Коли покупка не потрібна. Якщо важкі моделі потрібні лише зрідка, залізо дешевше орендувати в хмарі, ніж купувати: дорога карта «відбивається» лише за постійного завантаження. Покупка локального заліза виправдана приватністю даних, відсутністю абонентської плати і регулярним використанням — для разових прогонів погодинна оренда GPU майже завжди вигідніша.

Вибір за задачею

Бюджет — половина рішення; друга половина — що саме ви запускатимете.

Чат і кодинг на 7–14B. Вистачить 12–24 ГБ: Arc B580 для мінімуму, 24-ГБ карта для запасу. Швидкість тут висока на будь-якій із них.
Моделі 32B. Потрібні 24 ГБ (у квантуванні) — RTX 3090/4090 або RX 7900 XTX; для максимуму швидкості — RTX 5090.
Щільна 70B у високій точності. Або 96-ГБ RTX PRO 6000 на одній карті, або збірка 2× RTX 3090 (48 ГБ, бюджетно), або Mac Studio (повільніше, але простіше).
Frontier-моделі 200B–671B. Тільки unified-пам’ять: Mac Studio M3 Ultra (512 ГБ) або кластер із міні-боксів.
MoE-моделі і довгий контекст. Міні-бокси на 128 ГБ (Framework/DGX Spark): на MoE вони швидкі, а ємності вистачає під великий контекст.
Потрібен CUDA і зрілий софт. NVIDIA у будь-якому вигляді (5090, PRO 6000, DGX Spark) — усе «просто працює»; альтернативи дешевші, але з налаштуванням.

Визначилися із залізом, але хочете не просто купити пристрій, а зібрати машину і підняти домашній ШІ-сервер під свій робочий процес — із розбором багатокарточної збірки, охолодження, живлення і цін українського ринку? Це в окремому розборі: як зібрати локальний ШІ-ПК під задачу і бюджет.

Софт і екосистема: прихована ціна альтернатив

Характеристики — половина справи; друга половина — стек інференсу. Тут NVIDIA бере зрілістю, а альтернативи — ціною та ємністю.

NVIDIA / CUDA — золотий стандарт: llama.cpp, Ollama, vLLM, LM Studio працюють з коробки і на Windows, і на Linux. Платите за це ціною карти, зате софт передбачуваний.
Apple / MLX і Metal — зріло й енергоефективно; unified-пам’ять прибирає «податок» на копіювання тензорів по PCIe. Але на рівному розмірі моделі NVIDIA швидша в сирому throughput, а частину інструментів під Apple адаптують пізніше.
AMD / ROCm — наздогнав у гілці 6.x: Ollama, llama.cpp, vLLM заводяться, але чиста установка займає години проти хвилин на CUDA, а Windows-підтримка ще сира — Linux де-факто обов’язковий.
Intel Arc / Vulkan, SYCL — найдешевший вхід, але головна пастка саме в софті: стандартний Ollama не прискорює Arc (мовчки рахує на CPU), потрібен llama.cpp з Vulkan/SYCL або LM Studio.

Висновок простий: якщо час дорожчий за гроші і потрібен передбачуваний софт — переплата за NVIDIA окуповується. Якщо бюджет жорсткий і не лякає вечір налаштування — альтернативи дають ту саму пам’ять помітно дешевше.

Часті помилки та ризики

Чого варто уникати при виборі (з датами):

Недокупити пам’ять. Якщо модель або контекст не влазять, дані йдуть у системну RAM, і швидкість падає з 50–100 до 2–5 ток/с — повільніше за процесор. Беріть обсяг із запасом під контекст (vc.ru/decodesfuture, 2026).
Переплутати ємність і швидкість. 128 ГБ unified не означає «швидко»: на щільних моделях вирішує пропускна здатність, а в міні-боксів вона втричі-всемеро нижча, ніж у дискретних GPU (terminalbytes, 2026).
Забути про екосистему. Дешева ємність на AMD/Intel/Apple іде з мороком по софту: немає CUDA, а ROCm/SYCL/MLX потребують налаштування. Закладіть на це час (sitepoint, 2026).
Ігнорувати тип моделі. Під unified-бокс беріть MoE-моделі (швидкі), а не щільні 70B (повільні ~2–4 ток/с); для щільних потрібна висока ПЗ (r/LocalLLaMA, 2026).
Купити «на виріст» не туди. Місткий, але повільний бокс не стане швидким GPU, а швидкий 32-ГБ GPU не вмістить 70B. Спершу задача — потім залізо.

FAQ

Скільки відеопам’яті потрібно для локального LLM? Залежить від моделі: 7–8B комфортно в 12 ГБ, 14B — у 16–24 ГБ, 32B у квантуванні — у 24 ГБ, щільна 70B у 4-біт — ~40–48 ГБ, frontier-моделі 200B+ — 128–512 ГБ unified. Плюс запас під контекст: довгі сесії з’їдають пам’ять KV-кешем. Брати варто із запасом — вихід за ліміт обвалює швидкість.

Що важливіше для швидкості — потужність чипа чи пам’ять? Пропускна здатність пам’яті. Після завантаження моделі генерація кожного токена — це прокачка ваг із пам’яті, тому швидкість майже лінійно залежить від ПЗ, а не від «сили» чипа. Тому б/в RTX 3090 (936 ГБ/с) на влазній моделі часто швидша, ніж міні-бокс на 128 ГБ (256 ГБ/с).

GPU чи Mac для локального ШІ? Mac (unified-пам’ять) беруть заради ємності задешево — він вміщує великі моделі, які не влізуть у споживчу відеокарту. Дискретний NVIDIA-GPU беруть заради швидкості і зрілої CUDA. Грубо: потрібна ємність під великі/MoE-моделі — Mac або міні-бокс; потрібна максимальна швидкість на моделях ≤32 ГБ — RTX.

Чи можна запускати 70B локально і на чому? Так. Варіанти: RTX PRO 6000 (96 ГБ, щільна 70B у FP8 на одній карті), збірка 2× RTX 3090 (48 ГБ, бюджетно через NVLink), міні-бокс на 128 ГБ або Mac Studio (вмістять, але щільна генерація повільніша). Одна карта на 24 ГБ 70B цілком не тримає — тільки з частковим вивантаженням і падінням швидкості.

Чи варто брати міні-ПК на 128 ГБ (Strix Halo) під ШІ? Так, якщо вам потрібні MoE-моделі і великий контекст за розумні гроші. На MoE такі бокси швидкі (gpt-oss-120B ~30 ток/с), а 128 ГБ дають ємність, недоступну відеокартам. Але щільні 70B на них повільні (~2–4 ток/с): це покупка заради місткості, а не швидкості.