Коротко (TL;DR)
Залізо для локального ШІ вибирається не «яка відеокарта потужніша», а за простим алгоритмом: спершу модель — потім залізо. Визначте, які моделі вам потрібні (7–14B / 32B / 70B / 200B+) і який контекст — це задає мінімум пам’яті. Потім у межах бюджету беріть максимум пропускної здатності під цей обсяг. І тільки потім обирайте екосистему (NVIDIA/CUDA проти альтернатив) — за готовністю морочитися із софтом.
Дві речі плутають найчастіше. Ємність пам’яті вирішує, що взагалі влізе; пропускна здатність — як швидко підуть токени. Це різні осі: 128 ГБ unified-пам’яті вміщують величезну модель, але на скромній пропускній здатності щільна 70B повзтиме. А якщо модель не влізла і «потекла» в системну RAM — швидкість обвалюється з комфортних 50–100 до 2–5 токенів/с.
Нижче — цей алгоритм по кроках, майстер-таблиця всіх актуальних рішень 2026 (від $250 до $8 500+) і конкретні рекомендації за бюджетом і задачею. Кожне рішення — з посиланням на детальний розбір серії, якщо захочете заглибитися.
(Дані актуальні на 16 червня 2026; ціни й характеристики — з датами в тексті.)
З чого почати: алгоритм вибору
Не починайте з бренду чи «топової» карти. Почніть із трьох питань по порядку — вони відсікають зайве найшвидше.
- Які моделі і який контекст? Це визначає мінімум пам’яті. Грубий орієнтир: 7–8B комфортно живуть у 12 ГБ, 14B — у 16–24 ГБ, 32B у квантуванні — у 24 ГБ, щільна 70B у 4-біт просить ~40–48 ГБ, а frontier-моделі 200B–671B потребують unified-пам’ять на 128–512 ГБ. Врахуйте контекст: у 8B-моделі кожні 1000 токенів діалогу — це ще ~134 МБ пам’яті під KV-кеш, а вікно 32K додає майже пів гігабайта понад ваги.
- Скільки пропускної здатності дає бюджет під цей обсяг? Коли модель уже влізла, саме пропускна здатність пам’яті визначає швидкість генерації. Беріть максимум ПЗ, який дозволяє бюджет за потрібної ємності.
- Чи готові ви до екосистеми без CUDA? NVIDIA працює «з коробки» всюди; Apple (MLX/Metal), AMD (ROCm) та Intel (Vulkan/SYCL) дають ємність або ціну, але потребують зусиль із налаштування.
Приклад. Мета — приватний кодинг-асистент на Qwen 32B з контекстом 16K. Крок 1: 32B у квантуванні просить ~24 ГБ плюс запас під контекст — отже, мінімум 24 ГБ. Крок 2: у бюджеті до $900 максимум пропускної здатності за 24 ГБ дає б/в RTX 3090 (936 ГБ/с) — вона швидша, ніж міні-бокс на 128 ГБ, якого тут і не потрібно. Крок 3: на NVIDIA весь софт заведеться одразу. Підсумок — RTX 3090, а не «найдорожча» карта і не «наймісткіший» бокс. Той самий алгоритм однаково відсікає зайве і для 8B-чату, і для frontier-моделі.
Цей порядок — пам’ять → швидкість → екосистема — економить і гроші, і нерви: він не дає купити швидкий, але маломісткий GPU під велику модель або місткий, але повільний бокс під швидкісну задачу.
Дві осі: ємність і швидкість
Головна плутанина новачка — міряти залізо «потужністю чипа». Для текстової генерації це вторинно. Працюють дві незалежні осі.
Ємність (що влізе). Ваги моделі, KV-кеш контексту і проміжні обчислення мають цілком поміститися у швидку пам’ять — відеопам’ять GPU або unified-пам’ять. Не помістилися — система вивантажує частину в повільну системну RAM, і настає «обрив»: швидкість падає з 50–100 до 2–5 токенів/с, повільніше, ніж друкує людина. Саме тому «впритул» по пам’яті гірше, ніж здається: один крок за ліміт — і продуктивність руйнується.
Швидкість (як швидко). Коли модель завантажена, генерація кожного токена — це прокачка всіх потрібних ваг із пам’яті у обчислювальні ядра. Тому швидкість майже лінійно залежить від пропускної здатності пам’яті, а не від «сили» чипа. Умовна драбина ПЗ: Strix Halo і DGX Spark — ~256–273 ГБ/с, Intel Arc B580 — 456, Mac M4 Max — 546, Mac M3 Ultra — 819, б/в RTX 3090 — 936, RX 7900 XTX — 960, RTX 5090 і RTX PRO 6000 — 1 792 ГБ/с. Чим вище — тим швидше йдуть токени на влазній моделі.
Звідси практичний наслідок: unified-пам’ять — це про ємність, дискретний GPU з високою ПЗ — про швидкість. 128 ГБ у міні-боксі дозволяють завантажити модель, яку не вмістить жодна споживча відеокарта, — але щільна 70B на 256 ГБ/с піде ~2–4 ток/с. Зате MoE-моделі (де на кожен токен активна лише частина параметрів) на тій самій машині літають: gpt-oss-120B видає ~30 ток/с. Це і є «MoE-розворот», який змінює розрахунок для unified-боксів.
Майстер-таблиця: рішення 2026
Усі актуальні шляхи для домашнього інференсу, від найдешевшого входу до frontier-ємності. Ціни й характеристики — на червень 2026; за кліком на рішення — детальний розбір.Рішення Пам’ять ПЗ, ГБ/с Ціна Під що Intel Arc B580 12 ГБ 456 $250 найдешевший вхід, 7–14B б/в RTX 3090 24 ГБ 936 ~$700 24-ГБ sweet spot, є NVLink AMD RX 7900 XTX 24 ГБ 960 ~$800 24 ГБ на AMD/ROCm, Linux Збірка 2× RTX 3090 48 ГБ 936 ~$2 500 70B бюджетно через NVLink Mac Mini M4 Pro до 64 ГБ 273 $1 400–2 400 дешевий вхід в unified Framework Desktop 128 ГБ 256 ~$2 000 MoE + контекст, DIY/кластер NVIDIA DGX Spark 128 ГБ 273 $4 699 CUDA-стек на 128 ГБ Збірка на RTX 5090 32 ГБ 1 792 ~$4 500 максимум швидкості ≤32 ГБ Воркстейшн RTX PRO 6000 96 ГБ 1 792 $8 500+ 70B у FP8 на одній карті Mac Studio M3 Ultra до 512 ГБ 819 від $4 000 200B–671B вдома
База всіх міні-боксів на 128 ГБ — чип AMD Ryzen AI Max+ 395 (Strix Halo); як він працює і що тягне, розібрано в базовій статті серії.
Кожен рядок таблиці — це окремий детальний огляд серії: токеноміка швидкості, BOM збірки, реальні бенчмарки і чесні ризики конкретного рішення. Цей гід — карта, по якій обираєте напрямок; огляд пристрою — глибоке занурення в обране. Якщо вже знаєте свій бюджет і задачу, переходьте одразу в потрібний розбір; якщо ні — пройдіть два розділи нижче.
Вибір за бюджетом
До $300 — спробувати. Intel Arc B580 (12 ГБ, $250) — найдешевший серйозний вхід: тягне 7–8B і 14B у квантуванні на рівні RTX 3060. Головна складність не в карті, а в софті Intel (стандартний Ollama не прискорює Arc). Альтернатива — б/в RTX 3060 12 ГБ зі зрілою CUDA.
$700–900 — золота середина. Клас 24 ГБ: б/в RTX 3090 (з NVLink) або нова RX 7900 XTX. 24 ГБ стали «магічною цифрою» сегмента — тримають 13B цілком, 32B у квантуванні і 70B у 4-біт з частковим вивантаженням. NVIDIA простіша в софті, AMD дешевша й новіша, але на Linux і ROCm.
$2 000–2 800 — ємність або потужна одиночна карта. Тут розвилка. Потрібна ємність під MoE і великий контекст — міні-бокс на 128 ГБ (Framework Desktop, ~$2 000) або Mac Mini M4 Pro (до 64 ГБ unified, $1 400–2 400) як м’який вхід в екосистему Apple. Потрібна швидкість — у цей бюджет влазить одиночна RTX 5090 (~$2 200–2 500), якщо є куди її поставити; повна збірка на ній — уже наступний тир.
$4 000+ — професійний рівень. Mac Studio M3 Ultra (до 512 ГБ) — єдиний готовий домашній шлях до моделей 200B–671B (альтернатива — кластер міні-боксів). DGX Spark ($4 699) — ті самі 128 ГБ, але з повним стеком CUDA. Повна збірка на RTX 5090 (~$4 500) дає максимум швидкості на моделях ≤32 ГБ. А RTX PRO 6000 (96 ГБ ECC, $8 500+) вантажить 70B у високій точності на одній карті без мультикарти.
Коли покупка не потрібна. Якщо важкі моделі потрібні лише зрідка, залізо дешевше орендувати в хмарі, ніж купувати: дорога карта «відбивається» лише за постійного завантаження. Покупка локального заліза виправдана приватністю даних, відсутністю абонентської плати і регулярним використанням — для разових прогонів погодинна оренда GPU майже завжди вигідніша.
Вибір за задачею
Бюджет — половина рішення; друга половина — що саме ви запускатимете.
- Чат і кодинг на 7–14B. Вистачить 12–24 ГБ: Arc B580 для мінімуму, 24-ГБ карта для запасу. Швидкість тут висока на будь-якій із них.
- Моделі 32B. Потрібні 24 ГБ (у квантуванні) — RTX 3090/4090 або RX 7900 XTX; для максимуму швидкості — RTX 5090.
- Щільна 70B у високій точності. Або 96-ГБ RTX PRO 6000 на одній карті, або збірка 2× RTX 3090 (48 ГБ, бюджетно), або Mac Studio (повільніше, але простіше).
- Frontier-моделі 200B–671B. Тільки unified-пам’ять: Mac Studio M3 Ultra (512 ГБ) або кластер із міні-боксів.
- MoE-моделі і довгий контекст. Міні-бокси на 128 ГБ (Framework/DGX Spark): на MoE вони швидкі, а ємності вистачає під великий контекст.
- Потрібен CUDA і зрілий софт. NVIDIA у будь-якому вигляді (5090, PRO 6000, DGX Spark) — усе «просто працює»; альтернативи дешевші, але з налаштуванням.
Визначилися із залізом, але хочете не просто купити пристрій, а зібрати машину і підняти домашній ШІ-сервер під свій робочий процес — із розбором багатокарточної збірки, охолодження, живлення і цін українського ринку? Це в окремому розборі: як зібрати локальний ШІ-ПК під задачу і бюджет.
Софт і екосистема: прихована ціна альтернатив
Характеристики — половина справи; друга половина — стек інференсу. Тут NVIDIA бере зрілістю, а альтернативи — ціною та ємністю.
- NVIDIA / CUDA — золотий стандарт: llama.cpp, Ollama, vLLM, LM Studio працюють з коробки і на Windows, і на Linux. Платите за це ціною карти, зате софт передбачуваний.
- Apple / MLX і Metal — зріло й енергоефективно; unified-пам’ять прибирає «податок» на копіювання тензорів по PCIe. Але на рівному розмірі моделі NVIDIA швидша в сирому throughput, а частину інструментів під Apple адаптують пізніше.
- AMD / ROCm — наздогнав у гілці 6.x: Ollama, llama.cpp, vLLM заводяться, але чиста установка займає години проти хвилин на CUDA, а Windows-підтримка ще сира — Linux де-факто обов’язковий.
- Intel Arc / Vulkan, SYCL — найдешевший вхід, але головна пастка саме в софті: стандартний Ollama не прискорює Arc (мовчки рахує на CPU), потрібен llama.cpp з Vulkan/SYCL або LM Studio.
Висновок простий: якщо час дорожчий за гроші і потрібен передбачуваний софт — переплата за NVIDIA окуповується. Якщо бюджет жорсткий і не лякає вечір налаштування — альтернативи дають ту саму пам’ять помітно дешевше.
Часті помилки та ризики
Чого варто уникати при виборі (з датами):
- Недокупити пам’ять. Якщо модель або контекст не влазять, дані йдуть у системну RAM, і швидкість падає з 50–100 до 2–5 ток/с — повільніше за процесор. Беріть обсяг із запасом під контекст (vc.ru/decodesfuture, 2026).
- Переплутати ємність і швидкість. 128 ГБ unified не означає «швидко»: на щільних моделях вирішує пропускна здатність, а в міні-боксів вона втричі-всемеро нижча, ніж у дискретних GPU (terminalbytes, 2026).
- Забути про екосистему. Дешева ємність на AMD/Intel/Apple іде з мороком по софту: немає CUDA, а ROCm/SYCL/MLX потребують налаштування. Закладіть на це час (sitepoint, 2026).
- Ігнорувати тип моделі. Під unified-бокс беріть MoE-моделі (швидкі), а не щільні 70B (повільні ~2–4 ток/с); для щільних потрібна висока ПЗ (r/LocalLLaMA, 2026).
- Купити «на виріст» не туди. Місткий, але повільний бокс не стане швидким GPU, а швидкий 32-ГБ GPU не вмістить 70B. Спершу задача — потім залізо.
FAQ
Скільки відеопам’яті потрібно для локального LLM? Залежить від моделі: 7–8B комфортно в 12 ГБ, 14B — у 16–24 ГБ, 32B у квантуванні — у 24 ГБ, щільна 70B у 4-біт — ~40–48 ГБ, frontier-моделі 200B+ — 128–512 ГБ unified. Плюс запас під контекст: довгі сесії з’їдають пам’ять KV-кешем. Брати варто із запасом — вихід за ліміт обвалює швидкість.
Що важливіше для швидкості — потужність чипа чи пам’ять? Пропускна здатність пам’яті. Після завантаження моделі генерація кожного токена — це прокачка ваг із пам’яті, тому швидкість майже лінійно залежить від ПЗ, а не від «сили» чипа. Тому б/в RTX 3090 (936 ГБ/с) на влазній моделі часто швидша, ніж міні-бокс на 128 ГБ (256 ГБ/с).
GPU чи Mac для локального ШІ? Mac (unified-пам’ять) беруть заради ємності задешево — він вміщує великі моделі, які не влізуть у споживчу відеокарту. Дискретний NVIDIA-GPU беруть заради швидкості і зрілої CUDA. Грубо: потрібна ємність під великі/MoE-моделі — Mac або міні-бокс; потрібна максимальна швидкість на моделях ≤32 ГБ — RTX.
Чи можна запускати 70B локально і на чому? Так. Варіанти: RTX PRO 6000 (96 ГБ, щільна 70B у FP8 на одній карті), збірка 2× RTX 3090 (48 ГБ, бюджетно через NVLink), міні-бокс на 128 ГБ або Mac Studio (вмістять, але щільна генерація повільніша). Одна карта на 24 ГБ 70B цілком не тримає — тільки з частковим вивантаженням і падінням швидкості.
Чи варто брати міні-ПК на 128 ГБ (Strix Halo) під ШІ? Так, якщо вам потрібні MoE-моделі і великий контекст за розумні гроші. На MoE такі бокси швидкі (gpt-oss-120B ~30 ток/с), а 128 ГБ дають ємність, недоступну відеокартам. Але щільні 70B на них повільні (~2–4 ток/с): це покупка заради місткості, а не швидкості.
