DeepSeek V4 Pro і DSpark: огляд, ціни, бенчмарки

Коротко (TL;DR)

Якщо ви побачили в трендах Hugging Face назву DeepSeek-V4-Pro-DSpark і подумали, що вийшла п’ята версія, — ні. DSpark — це не нова модель, а модуль прискорення поверх уже наявного DeepSeek V4 (сам V4 вийшов ще у квітні 2026-го). Це прямо написано в картці моделі й підтверджено незалежними виданнями. Розбираємося у двох шарах окремо: що таке сам V4 як модель і що до нього додає DSpark.

Коротко (TL;DR)
Що це і що вміє
Перевірка на завданнях
Тарифи й ліміти
Проти альтернатив
Кому що обрати
Ризики й обмеження
FAQ

Вердикт по суті:

Кому підходить: тим, хто хоче топову модель для коду й міркувань за ціною на порядок нижчою за західні аналоги — через API. І ентузіастам із серверним залізом для локального запуску.
Кому не підходить: тим, хто розраховує запустити це на домашній відеокарті (не вийде, див. розділ про залізо), кому потрібна робота із зображеннями та відео (мультимодальності поки немає), і тим, для кого критична приватність даних під юрисдикцією КНР.
Ціна: від $0,14 до $0,87 за 1 млн токенів через офіційний API (на 4 липня 2026) — одна з найдешевших моделей свого класу.
Головні конкуренти: за якістю — закриті GPT-5.4 і Claude Opus (V4 їх поки не наздоганяє на найскладніших завданнях, але радикально дешевший); серед відкритих моделей — GLM-5.2 і Qwen3. Незалежний аудит NIST ставить V4 приблизно на рівень GPT-5.

Що це і що вміє

Тут важливо розділити дві різні події, які злилися в одну назву на Hugging Face.

Шар 1 — сама модель DeepSeek V4 (квітень 2026). Це флагманська лінійка китайської DeepSeek із двох моделей з архітектурою MoE (mixture-of-experts, «суміш експертів» — коли на кожен запит працює не вся мережа, а лише потрібна частина «експертів»):

V4-Pro — 1,6 трлн параметрів усього, 49 млрд активних;
V4-Flash — 284 млрд усього, 13 млрд активних.

Обидві підтримують контекст у 1 млн токенів і ліцензовані під MIT — тобто повністю відкриті ваги, включно з комерційним використанням. Для порівняння масштабу: V4-Pro на диску займає близько 865 ГБ — це найбільша опублікована open-weight модель на сьогодні. Окрема інженерна деталь: гібридна увага дозволяє V4-Pro на контексті 1 млн токенів витрачати, за даними DeepSeek, лише 27% обчислень і 10% KV-кешу відносно попередньої версії V3.2 (це вендорська цифра, незалежного заміру поки немає). Ще один нюанс походження: V4 навчали на китайських чипах Huawei Ascend, а не на Nvidia, — на відміну від попередньої R1.

Це текстова модель. Мультимодальності (зображення, відео) на момент перевірки немає — її анонсували на другу половину 2026 року, але разом із V4 не відвантажили. Якщо вам потрібне розуміння зображень — це не сюди.

Шар 2 — DSpark (27 червня 2026). Це фреймворк спекулятивного декодування, який приробляється до вже готових ваг V4 і прискорює видачу токенів. Спекулятивне декодування — прийом, коли маленька «чорнова» модель вгадує кілька наступних токенів наперед, а велика лише перевіряє здогад разом, а не рахує кожен токен з нуля. Перенавчання основної моделі не потрібне. За власними продакшн-замірами DeepSeek, приріст швидкості на користувача становить 60–85% для Flash і 57–78% для Pro відносно колишньої базової лінії MTP-1, за того самого throughput. Це цифри вендора; рання стороння реплікація на GitHub показала скромніші, але якісно ті самі ~1,5× над MTP-1 на одиночному потоці. DSpark теж під MIT, і метод у принципі переноситься на інші моделі (Qwen, Gemma) — це цікаво навіть тим, хто сам DeepSeek не чіпатиме.

Коротко: V4 — це про якість і ціну, DSpark — про швидкість. Розробнику, який смикає модель через API, DSpark дає швидшу відповідь; на вибір самої моделі він не впливає.

Перевірка на завданнях

Про метод одразу: первинного прогону через платний API ми не робили, тож спираємося не на «ми потикали», а на відтворювані дані — задокументовані бенчмарки, незалежний державний аудит NIST CAISI і розгорнуту ручну перевірку носіїв мови. Розкладемо за типовими завданнями читача.

Код. Найсильніший бік. За SWE-bench Verified (пошук і полагодження реальних багів у репозиторіях) вендор заявляє 80,6%, незалежний аудит CAISI за своєю методикою — близько 74%: нижче, але й далі на рівні співставного GPT-5.4 mini. Рейтинг Codeforces 3206 і 93,5% на LiveCodeBench підтверджують — для роботи з кодом V4-Pro у вищій лізі.

Міркування й математика. Міцно, але не рекордно. На найскладнішому тесті HLE (без інструментів) V4-Pro дає 37,7% — нижче за Claude (40,0%), GPT-5.4 (39,8%) і помітно нижче за Gemini-3.1-Pro (44,4%). На найзаплутаніших завданнях найкращі західні моделі поки попереду.

Довгий контекст. Формально 1 млн токенів — можна закидати цілі кодові бази або великі документи. Інженерно це підкріплено гібридною увагою (за даними DeepSeek — 27% обчислень і 10% KV-кешу від попередньої версії на контексті 1М токенів; цифра вендорська, незалежного заміру поки немає).

Українська та російська мови. Тут є живе свідчення: розгорнута ручна перевірка на Habr показала, що V4 пише зв’язним, природним текстом, а старий баг попередніх версій — китайські ієрогліфи посеред тексту — не проявився. Це одне пряме спостереження, але показове для нашої аудиторії.

Тепер те, чого немає в більшості оглядів, — вендорські цифри поруч із незалежним державним аудитом NIST CAISI (США), що тестував V4-Pro у квітні 2026:

Що вимірювали	Заявляє DeepSeek (V4-Pro-Max)	Що каже незалежний аудит NIST CAISI
Загальний рівень	На рівні свіжого фронтиру	Відстає від фронтиру ~на 8 місяців, приблизно рівень GPT-5 (а не Opus 4.6 / GPT-5.4)
Кодинг, SWE-bench Verified	80,6% розв’язано	~74% на методиці CAISI (нижче, різниця пояснена іншим scaffolding)
LiveCodeBench	93,5%	—
Codeforces (рейтинг)	3206	—
GPQA Diamond (наука)	90,1%	—
HLE (найскладніший тест, без інструментів)	37,7%	Нижче за Claude (40,0%), GPT-5.4 (39,8%) і Gemini-3.1-Pro (44,4%)

Висновок простий і важливий: V4 — сильна модель, особливо за кодом, але не «вбивця фронтиру», як читається за вендорськими цифрами. CAISI не звинувачує DeepSeek у маніпуляції — розбіжність пояснює методикою (бюджет токенів, обв’язка), — але радить ставитися до самозаявлених чисел із поправкою.

Тарифи й ліміти

Найсильніший бік V4 — економіка через API. Ціни офіційного прайсингу DeepSeek на 4 липня 2026 (за 1 млн токенів):

Модель	Вхід (кеш-хіт)	Вхід (кеш-міс)	Вихід
V4-Flash	$0,0028	$0,14	$0,28
V4-Pro	$0,003625	$0,435	$0,87

Тут є неочевидна деталь, яку мало хто проговорює: 75%-знижку на V4-Pro анонсували як тимчасове промо до 31 травня 2026, але потім закріпили як постійний тариф. Листова ціна Pro була $1,74/$3,48 (вхід-міс/вихід) — тепер це $0,435/$0,87 назавжди. Саме тому незалежна оцінка CAISI (зроблена на основі старої ціни, станом на квітень 2026) сьогодні вже занижує реальну економію: за її ж даними V4 був дешевшим за співставний GPT-5.4 mini на 5 із 7 тестів, а після закріплення знижки розрив тільки зріс.

Одне попередження на майбутнє: до «офіційного» релізу V4 в середині липня 2026 DeepSeek анонсувала пікові ціни — 2× до базової ставки в години пік за пекінським часом (поза піковими годинами ціна та сама). На дату цього огляду це анонс, а не чинний тариф, — але якщо плануєте навантаження, закладіть його. І ще: старі ідентифікатори deepseek-chat та deepseek-reasoner вимикаються 24 липня 2026 о 15:59 UTC — їх маршрутизують на deepseek-v4-flash.

Безкоштовний доступ теж є. Вебчат і мобільний застосунок DeepSeek працюють на актуальній моделі безкоштовно (з лімітами за пікового навантаження) — цього достатньо, щоб просто спробувати модель на своїх завданнях, не платячи за API. Платити потрібно лише за API: він працює за передплаченим балансом, геоблокувань для нашої аудиторії в сервісу немає. Важливе застереження щодо даних: і в безкоштовному чаті, і через API запити обробляються на інфраструктурі в КНР (докладніше — у розділі про ризики).

Локальний запуск — окрема й куди менш райдужна історія. Забігаючи наперед: на домашній відеокарті це не працює. Подробиці — у наступному блоці; якщо вам потрібен лише API, його можна пропустити.

Локальний запуск (можна пропустити, якщо не плануєте свій сервер)

Відкриті ваги ≠ «запущу на своєму ПК». Цифри чесні:

V4-Pro (~865 ГБ) — реалістично лише на збірці з 4× GPU по 80 ГБ і вище, або на сервері. Для домашньої машини непідйомно.
V4-Flash (~160 ГБ) — молодша модель, але й її мінімально життєздатний квант Q2_K потребує близько 103 ГБ VRAM. Це більше, ніж у чотирьох RTX 4090, разом узятих, — в одну споживчу карту (навіть RTX 5090) не влазить.

Плюс технічний нюанс, якого немає в більшості оглядів: стандартний llama.cpp не запускає V4 — архітектура всередині називається deepseek4, і потрібен зібраний зі спеціального форка/PR білд, інакше отримаєте помилку типу моделі. Якщо хочете помацати локальні LLM без серверної стійки, розумніше почати з менших моделей — наприклад, DeepSeek-R1 на своєму ПК. А якщо все ж мітите у великі MoE, погляньте, що потрібно за залізом, на прикладі робочої станції на RTX PRO 6000 Blackwell.

Проти альтернатив

Критерій	DeepSeek V4-Pro	GPT-5.4 (OpenAI)	Claude Opus 4.x	Qwen3 / GLM-5.2 (open)
Ваги	Відкриті (MIT)	Закриті	Закриті	Відкриті
Ціна API	Дуже низька	Висока	Висока	Низька
Рівень (незал. аудит)	~GPT-5, відставання ~8 міс	Фронтир	Фронтир	Співставний з V4 у нішах
Мультимодальність	Немає (поки)	Так	Так	Частково
Юрисдикція даних	КНР	США	США	КНР (Qwen/GLM)

Розстановка проста. Потрібен максимум якості за будь-яку ціну — це закриті GPT-5.4 або Claude Opus. Потрібне найкраще співвідношення ціна/якість для коду й міркувань та/або відкриті ваги — DeepSeek V4 один із найсильніших варіантів на ринку. Серед інших відкритих моделей прямий конкурент — GLM-5.2 від Z.ai: варто порівняти їх на своїх завданнях.

Кому що обрати

Розробнику / стартапу (через API): V4-Pro для складного коду й міркувань, V4-Flash — для масових дешевих завдань і чорнової обробки. Економіка найкраща в класі; DSpark дає швидкий відгук.
Досліднику / ентузіасту: відкриті ваги під MIT — можна донавчати й вбудовувати без ліцензійних застережень. Але тверезо оцініть залізо (див. вище).
Бізнесу з чутливими даними: зважте юрисдикцію. Для API-запитів дані йдуть на інфраструктуру в КНР — для багатьох сценаріїв це стоп-фактор (див. ризики).
Звичайному користувачу для «поспілкуватися» й тексту: простіше й безпечніше взяти західний асистент; цінова перевага V4 розкривається на обсязі через API, а не в разових чатах.

Ризики й обмеження

Це розділ, який не можна пропускати (тема з розряду «ваші гроші й ваші дані»).

Приватність і юрисдикція. У DeepSeek як сервісу є задокументована історія проблем: публічно відкрита база даних (витік, виявлений Wiz у січні 2025 року, понад 1 млн записів), повідомлення про передавання даних до Китаю без розкриття, а також блокування на держрівні в Італії (за GDPR), Австралії, Тайвані, у ВМС США та NASA. Ці інциденти стосуються компанії та сервісу 2025 року (до V4), не самої моделі, — але політика зберігання даних під юрисдикцією КНР актуальна й для V4/API. Відкриті ваги можна запускати у своєму контурі (тоді дані нікуди не йдуть) — але це впирається в залізо.
Провенанс бенчмарків. Вендорські цифри оптимістичніші за незалежний аудит. Орієнтуйтеся на NIST CAISI як на противагу маркетингу.
Цензура й вирівнювання. Модель навчена під китайську нормативку — на політично чутливих темах відповіді можуть бути відфільтровані. Для технічних завдань це частіше не заважає, але знати варто.
Немає мультимодальності. Лише текст; зображення/відео анонсовані, але не випущені.
Волатильність цін. Базовий тариф низький, але пікові ціни (2×) очікуються із середини липня 2026 — перевіряйте актуальний прайсинг перед серйозним навантаженням.

FAQ

DeepSeek-V4-Pro-DSpark — це нова, п’ята версія? Ні. Це той самий чекпойнт V4-Pro (квітень 2026) з прибудованим модулем прискорення DSpark (червень 2026). Сама назва на Hugging Face вводить в оману — нової моделі за нею немає.

Що конкретно дає DSpark? Прискорення видачі токенів через спекулятивне декодування: за замірами DeepSeek, на 60–85% швидше для V4-Flash і на 57–78% для V4-Pro відносно колишньої базової лінії, без втрати якості й без перенавчання моделі.

Скільки коштує DeepSeek V4 і це справді дешево? На 4 липня 2026 — від $0,14 до $0,87 за 1 млн токенів через офіційний API. Так, це одна з найдешевших моделей свого класу; 75%-знижку на Pro зробили постійною. Але до середини липня 2026 очікуються пікові надбавки.

Чи можна запустити DeepSeek V4 на домашньому ПК? Практично ні. Навіть молодша V4-Flash у мінімальному робочому кванті потребує близько 103 ГБ VRAM — більше за чотири RTX 4090. V4-Pro (~865 ГБ) — лише серверні збірки 4×80 ГБ і вище. Плюс потрібен пропатчений llama.cpp.

DeepSeek V4 кращий за GPT чи Claude? За незалежним аудитом NIST CAISI V4 приблизно на рівні GPT-5 (відставання від свіжого фронтиру близько 8 місяців), тобто слабший за найновіші GPT-5.4 та Claude Opus на найскладніших завданнях. Але за ціною за розв’язане завдання V4 їх помітно обходить.

Чи безпечно надсилати дані в DeepSeek? Для чутливих даних — з обережністю: API-запити обробляються на інфраструктурі в КНР, а в сервісу є історія інцидентів із даними. Приватний сценарій — локальний запуск відкритих ваг, але він потребує дорогого заліза.