Робоча станція на NVIDIA RTX PRO 6000 Blackwell: 96 ГБ на одній карті під 70B без мультикарти

Коротко (TL;DR)

NVIDIA RTX PRO 6000 Blackwell — це «потужніше» у чистому вигляді: 96 ГБ пам’яті GDDR7 з ECC на одній карті. Головний її сенс — запускати великі моделі цілком, без мультикарти й шардингу. Llama 3.3 70B у високій точності (FP8, ~70 ГБ) вантажиться на одну PRO 6000 та йде близько 19 токенів/с — приблизно вдвічі швидше, ніж Mac Studio M3 Ultra на тій самій моделі. А RTX 5090 (32 ГБ) таку модель не запускає взагалі.

До 96 ГБ додаються професійні плюси: ECC-пам’ять ловить однобітові помилки (важливо для багатоденного донавчання, щоб не отримати мовчки зіпсовані ваги) та стабільні pro-драйвери, які не ламають CUDA раптовим авто-оновленням. За пропускною здатністю (1 792 ГБ/с) та архітектурою це той самий чип GB202, що в 5090, але з утричі більшою пам’яттю.

Розплата — ціна. Рекомендована — близько $8 500, версія Max-Q буває за $7 999, але через дефіцит роздріб сягає ~$13 250 (червень 2026). Це найдорожча частина будь-якої збірки. Нижче — що саме карта тягне з цифрами, повний воркстейшн-BOM, чесне порівняння з мультикартою та Mac, і кому вона реально потрібна, а кому це переплата.

(Дані актуальні на 15 червня 2026; ціни й бенчмарки — з датами в тексті.)

Завдання та бюджет

Ця робоча станція — під професійний локальний ШІ: інференс і донавчання моделей 70B-класу у високій точності, продакшн-сервінг, багатоденні тренування з ECC-надійністю, плюс важка профграфіка та рендер. Ключова ідея — одна велика карта замість зв’язки з кількох: безперервні 96 ГБ простіші в налаштуванні й експлуатації, ніж 3× RTX 5090 або 2× RTX 3090 з їхньою шиною, живленням і шардингом.

Бюджет високий і визначається картою. Сама PRO 6000 — від $8 500 (а в дефіциті до ~$13 250), решта (CPU, плата, пам’ять, БЖ, корпус) додає ~$1 500–2 500. Повна станція виходить від ~$10 000, а з вуличною ціною карти — і до ~$15 000. Це інструмент для тих, кому час, надійність та відсутність мороки з мультикартою важливіші за гроші. Типові покупці — продуктові ML-команди, дослідницькі лабораторії, студії генеративного відео й графіки, а також соло-розробники, яким потрібен повний приватний стек під 70B без залежності від хмари.

Тверезе застереження: якщо 70B-моделі потрібні вам лише іноді, ту саму карту дешевше орендувати в хмарі (про це нижче), ніж купувати.

Конфігурація (BOM)

Збалансована станція під одну PRO 6000. Карта двослотова й живиться одним 16-pin роз’ємом, тому вимог до корпусу менше, ніж у трислотової 5090, — але запас по живленню потрібен.

КомпонентМодельЦінаНавіщо саме це
ВідеокартаRTX PRO 6000 96 ГБ (Workstation/Max-Q)$8 500–13 25096 ГБ ECC — ядро станції
ПроцесорRyzen 9 9950X / Threadripper~$550–1 200вся робота на GPU, CPU — обв’язка
Мат. платаX870E / TRX50 (PCIe 5.0)~$350–600PCIe 5.0 ×16, лінії під апгрейд
Пам’ять96–128 ГБ DDR5~$300–450під систему й завантаження моделей
Блок живлення1000–1200 Вт (або 850 для Max-Q)~$200600 Вт карти + запас
Корпус + NVMeз продуванням + 4 ТБ NVMe~$400швидкий SSD під ваги 70B+
Разомвід ~$10 000 (орієнтир, червень 2026)

Зауваження: процесор навмисно можна взяти не топовий (наприклад, Ryzen 9 9900X) — усе навантаження лягає на GPU, а гарячіший CPU тільки додасть тепла. Швидкий NVMe важливий: модель на 70 ГБ має встигати підвантажуватися з диска в пам’ять.

Що реально потягне

Головна цінність 96 ГБ — великі моделі у високій точності на одній карті. Швидкість (decode) при цьому гідна: пропускна здатність 1 792 ГБ/с — на рівні 5090.

МодельТочністьВлазить у 96 ГБШвидкість, ток/с
Llama 8B / Mistral 7BFP16так, з величезним запасом270–326
Llama 3.3 70BFP8 (~70 ГБ)так~19
Qwen 27BQ8 (~27 ГБ)так, з великим запасомвисока
DeepSeek R1 671B4-бітні (потрібен Mac/датацентр)

Ключовий замір — Llama 3.3 70B у FP8 (це ~70 ГБ): на одній PRO 6000 модель цілком у відеопам’яті (зайнято ~73 з 96 ГБ) і видає ~19 токенів/с — швидше, ніж читає людина (за hands-on тестом Alex Ziskind, липень 2025). Важлива деталь: це висока точність FP8, а не агресивний 4-біт, на який доводиться йти на картах менших. На компактних моделях карта просто летить — у тестах StorageReview вона обганяє 5090, 4090 та минулу 6000 Ada (Phi ~326 ток/с, Mistral ~272).

Чому важлива саме висока точність. На картах із 24–32 ГБ модель на 70B доводиться стискати до агресивного 4-біт і різати контекст — це б’є по якості відповідей на складних задачах на кшталт коду й міркувань. На 96 ГБ та сама 70B живе у FP8 з великим контекстним вікном: відповіді помітно якісніші, а довгі документи можна подавати цілком. Запас пам’яті також дозволяє тримати кілька моделей завантаженими одночасно — наприклад, швидкий помічник і великий генераліст — без постійного перезавантаження.

Стеля теж чесна: frontier-моделі на кшталт DeepSeek R1 671B одна карта не вантажить — для них, як і раніше, потрібен Mac Studio з 512 ГБ або датацентровий GPU. 96 ГБ — це «70B із запасом», а не «все на світі».

Відеопам'ять на одній карті: RTX PRO 6000 проти споживчих, ГБ

Скільки коштує

З ціною PRO 6000 окрема історія. Рекомендована — близько $8 500 (StorageReview), версія Max-Q буває за $7 999 у роздробі (Microcenter). Але попит високий, а пропозиція обмежена, і в червні 2026 карту виставляють уже по ~$13 250 — один із найдорожчих GPU на ринку (вірусний тейк у X, 13 червня 2026). Перед покупкою перевіряйте актуальний прайс: розкид величезний.

Звідси — важлива альтернатива. Якщо карта потрібна не постійно, її дешевше орендувати в хмарі: RTX PRO 6000 на RunPod — від ~$1,69/год, на Northflank — $3,00/год (з CPU/RAM/диском). За рідких задач оренда окуповується роками проти покупки за $8 500+; покупка виправдана лише за постійного завантаження й вимог до приватності. Грубий орієнтир: за ціни $8 500 та оренди ~$2/год карта «відбивається» приблизно за 4 250 годин роботи — розумно для постійно завантаженої станції й невигідно для епізодичних прогонів.

RTX PRO 6000 проти альтернатив

Де платити за одну велику карту, а де взяти щось інше (дані на червень 2026).

РішенняVRAM / ПЗECCЦіна (карти)Коли
RTX PRO 600096 ГБ / 1 792 ГБ/стак$8 500–13 25070B на одній карті, продакшн
RTX 509032 ГБ / 1 792 ГБ/сні$2 500–3 200моделі ≤30B, максимум швидкості
2× RTX 3090 (б/в)48 ГБ (2×24) / 936 ГБ/с на картуні$1 400–2 00070B бюджетно через NVLink
Mac Studio M3 Ultraдо 512 ГБ / 819 ГБ/свід $3 999моделі 200B–671B

Головний аргумент PRO 6000 — одна карта замість мультикарти. Щоб наздогнати її 96 ГБ споживчими картами, потрібно 3× RTX 5090 (а це два блоки живлення на 1000 Вт+, плата з трьома слотами PCIe 5.0 ×16 і дорогий Threadripper) — проти збірки на одній RTX 5090 це зовсім інший рівень складності. Бюджетна альтернатива — пара б/в RTX 3090: 48 ГБ через NVLink за ~$1 800, але це менше пам’яті, морока з б/в і шумний риг. PRO 6000 економить не гроші, а складність і час: «один безперервний пул на 96 ГБ» замість склейки карт.

Проти Mac Studio M3 Ultra розклад дзеркальний: на 70B PRO 6000 приблизно вдвічі швидша (19 проти 9 ток/с) і дає CUDA/FP8, зате Mac із його 512 ГБ вантажить DeepSeek R1 671B, який 96-ГБ карта не вмістить. Знову та сама розвилка «швидкість проти ємності», тільки на верхньому рівні.

Є й неочевидна економія. Мультикарта — це не лише гроші: це підбір плати з потрібними лініями PCIe, потужний або подвійний блок живлення, корпус під три-чотири карти, шум, тепло й час на налаштування tensor parallelism. PRO 6000 у двослотовому виконанні та з одним 16-pin ставиться у звичайну робочу станцію без особливих вимог до живлення й продування. Для студії чи команди, де простій коштує дорожче за залізо, «одна карта, яка просто працює» — вагомий аргумент.

ECC, pro-драйвери та редакції

За що саме ви доплачуєте проти звичайної 5090 — три професійні речі.

  • ECC-пам’ять. Виправляє однобітові помилки на льоту. В іграх випадкова помилка пам’яті — це глітч; у багатоденному тренуванні — мовчки зіпсовані ваги й втрачений чекпойнт без жодного повідомлення про помилку. Для продакшн-тюнінгу ECC — не маркетинг, а страховка.
  • Професійні драйвери. Pro/Studio-драйвери виходять на повільних стабільних циклах, валідовані під ШІ та не ставляться авто-оновленням. Геймерський драйвер, який зламав CUDA посеред проєкту, — реальний ризик, якого тут немає.
  • Повноцінне донавчання. 96 ГБ + ECC дозволяють LoRA/QLoRA та важкий тюнінг моделей 70B-класу прямо на станції — те, чого не зробити на 32-ГБ 5090 чи 48-ГБ парі 3090. Для дослідника або команди це експерименти «у себе», без хмарних черг і рахунків.
  • Дві редакції. Повна Workstation Edition — 600 Вт (turbine-кулер, без RGB, двослотова). Версія Max-Q — 300 Вт, тихіша (один вентилятор) і холодніша, за близькою ціною: чудовий вибір для тісних і SFF-корпусів, де 600 Вт нікуди дівати.

Збірка та налаштування

Кілька практичних нюансів під одну PRO 6000:

  • Живлення та конектор. Карта живиться одним 16-pin (12V-2×6) — беріть БЖ ATX 3.1 з нативним кабелем, без перехідників із чотирьох 8-pin. Для повної 600-Вт версії — 1000–1200 Вт, для Max-Q (300 Вт) вистачить 850 Вт.
  • Охолодження. Workstation Edition — турбінний (blower) кулер, що викидає повітря назовні: ставиться у звичайний корпус без особливих вимог, але під навантаженням шумить. Max-Q тихіша й холодніша. У будь-якому разі забезпечте наскрізне продування.
  • Драйвери. Ставте професійний Studio/Enterprise-драйвер, а не GeForce Game Ready — він валідований під ШІ й не оновлюється сам, ламаючи CUDA посеред проєкту.
  • Софт. Моделі запускаються звично: Ollama та LM Studio для простоти, vLLM/SGLang з FP8 — для продакшн-сервінгу. Покроковий розбір інференсу (Ollama, кванти, бекенди) — у розділі локальні нейромережі.

Апгрейд-шлях

Куди рости, якщо 96 ГБ перестане вистачати:

  • Друга PRO 6000. Дві карти дають 192 ГБ сукупної відеопам’яті під моделі 140B+. Важливе застереження: NVLink тут немає (як і в усіх споживчих/воркстейшн Blackwell) — карти спілкуються по PCIe Gen5 ×16, це не «єдиний пул як один чип», але для інференсу та LoRA/QLoRA-тюнінгу достатньо.
  • Хмара під піки. Разові важкі прогони логічніше не докуповувати другою картою, а орендувати (RunPod від ~$1,69/год).
  • Датацентр. Якщо потрібен саме NVLink (повний тюнінг 70B на кількох картах, тензор-паралелізм у проді) — це вже SXM-карти (H100/H200/B200) в EPYC-сервері, інший клас бюджету.

Ризики та слабкі місця

Чесний список (з датами):

  • Екстремальна ціна. MSRP ~$8 500, але через дефіцит роздріб сягає ~$13 250 (X, червень 2026) — карта дорожча, ніж ціла збірка на 2× 3090 чи 5090.
  • Стеля 96 ГБ. Frontier-моделі (DeepSeek R1 671B і подібні) одна карта не вантажить — для них потрібен Mac Studio (512 ГБ) або датацентр (Ziskind, 2025).
  • Немає NVLink. Дві карти — це PCIe Gen5, а не єдиний пул на 192 ГБ «як один чип»; для NVLink-навантажень шлях — датацентрові SXM (VRLA Tech, 2026).
  • 600 Вт і тепло. Повна версія потребує БЖ 1000 Вт+ і продування; для тихої/компактної станції беріть Max-Q на 300 Вт (StorageReview/Ziskind, 2026).
  • Окупність. $8 500+ заліза проти оренди від $1,69/год — за рідкого навантаження покупка не виправдовується (Northflank, 2026).

Заради справедливості — плюси вагомі: єдиний простий спосіб тримати 70B у високій точності на одній карті, ECC і pro-драйвери для продакшну, ~2× швидкість M3 Ultra на 70B, і при цьому топова карта для рендеру та профграфіки.

Кому підходить, а кому ні

  • Беріть RTX PRO 6000, якщо вам потрібні моделі 70B-класу у високій точності на одній карті, важливі ECC під довгі тренування й стабільні драйвери, а складність мультикарти ви хочете обійти — і готові до ціни від $8 500.
  • Зберіть 2× RTX 3090, якщо потрібні ті самі ~48–96 ГБ, але бюджетно, і ви готові до б/в і мороки з мультикартою.
  • Візьміть RTX 5090, якщо ваші моделі влазять у 32 ГБ — це в рази дешевше.
  • Ідіть у Mac Studio, якщо потрібні frontier-моделі більші за 96 ГБ (200B–671B).
  • Орендуйте в хмарі, якщо важкі задачі рідкісні — $8 500 заліза не окупляться.

FAQ

Чи запустить RTX PRO 6000 модель Llama 70B? Так, і у високій точності. Llama 3.3 70B у FP8 важить ~70 ГБ і цілком вміщується в 96 ГБ карти, видаючи ~19 токенів/с — швидше, ніж читає людина. Це ключова відмінність від RTX 5090 (32 ГБ), яка 70B не вміщує взагалі.

Скільки коштує RTX PRO 6000 Blackwell? Рекомендована ціна — близько $8 500, версія Max-Q буває за $7 999. Але через дефіцит у червні 2026 роздріб сягає ~$13 250. Повна робоча станція виходить від ~$10 000. Якщо карта потрібна нечасто, дешевше орендувати в хмарі (RunPod від ~$1,69/год).

RTX PRO 6000 чи дві RTX 3090? PRO 6000 — це безперервні 96 ГБ ECC на одній карті без шардингу й мороки з мультикартою, плюс pro-драйвери. 2× 3090 дають 48 ГБ через NVLink-міст у рази дешевше (~$1 800), але це б/в-карти, шум і складна збірка. PRO 6000 беруть за простоту, надійність та ємність, а не за економію.

Чим PRO 6000 відрізняється від RTX 5090, окрім пам’яті? Той самий чип GB202 і 1 792 ГБ/с, але в PRO 6000 96 ГБ проти 32, є ECC-пам’ять, професійні драйвери (без авто-оновлень, що ламають CUDA), двослотовий форм-фактор і редакція Max-Q на 300 Вт. 5090 швидше окуповується для моделей ≤30B; PRO 6000 — для 70B+ і продакшну.

Чи підтримує RTX PRO 6000 NVLink? Ні. Як і всі споживчі та воркстейшн-карти Blackwell, PRO 6000 обходиться без NVLink — дві карти спілкуються по PCIe Gen5 ×16 і дають 192 ГБ сукупної пам’яті. NVLink у 2026 залишився лише в датацентрових SXM-карт (H100/H200/B200).

Поділитися
Зв'язатися:
Крипто- та data-аналітик, інженер-програміст (факультет комп'ютерних наук ХНУРЕ). В IT з 2008 року: адміністрував корпоративний моніторинг у «Vodafone Україна», сім років розробляв і просував веб-проєкти, п'ять років керував маркетингом на метриках — конверсія, CTR, ROI, LTV.Криптовалютними ринками займаюся з 2021 року: ончейн-метрики, токеноміка, макроекономічні індикатори. Розробив власну data-driven модель аналізу ринку на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математична статистика та EDA; збір і звірку даних автоматизую AI-агентами.Принцип — «Don't trust, verify»: кожна цифра перевірена за першоджерелом, ключові — щонайменше за двома незалежними; прогнози — лише сценарії з умовами. Теза без даних не публікується.