Коротко (TL;DR)
Якщо ви побачили в трендах Hugging Face назву DeepSeek-V4-Pro-DSpark і подумали, що вийшла п’ята версія, — ні. DSpark — це не нова модель, а модуль прискорення поверх уже наявного DeepSeek V4 (сам V4 вийшов ще у квітні 2026-го). Це прямо написано в картці моделі й підтверджено незалежними виданнями. Розбираємося у двох шарах окремо: що таке сам V4 як модель і що до нього додає DSpark.
Вердикт по суті:
- Кому підходить: тим, хто хоче топову модель для коду й міркувань за ціною на порядок нижчою за західні аналоги — через API. І ентузіастам із серверним залізом для локального запуску.
- Кому не підходить: тим, хто розраховує запустити це на домашній відеокарті (не вийде, див. розділ про залізо), кому потрібна робота із зображеннями та відео (мультимодальності поки немає), і тим, для кого критична приватність даних під юрисдикцією КНР.
- Ціна: від $0,14 до $0,87 за 1 млн токенів через офіційний API (на 4 липня 2026) — одна з найдешевших моделей свого класу.
- Головні конкуренти: за якістю — закриті GPT-5.4 і Claude Opus (V4 їх поки не наздоганяє на найскладніших завданнях, але радикально дешевший); серед відкритих моделей — GLM-5.2 і Qwen3. Незалежний аудит NIST ставить V4 приблизно на рівень GPT-5.
Що це і що вміє
Тут важливо розділити дві різні події, які злилися в одну назву на Hugging Face.
Шар 1 — сама модель DeepSeek V4 (квітень 2026). Це флагманська лінійка китайської DeepSeek із двох моделей з архітектурою MoE (mixture-of-experts, «суміш експертів» — коли на кожен запит працює не вся мережа, а лише потрібна частина «експертів»):
- V4-Pro — 1,6 трлн параметрів усього, 49 млрд активних;
- V4-Flash — 284 млрд усього, 13 млрд активних.
Обидві підтримують контекст у 1 млн токенів і ліцензовані під MIT — тобто повністю відкриті ваги, включно з комерційним використанням. Для порівняння масштабу: V4-Pro на диску займає близько 865 ГБ — це найбільша опублікована open-weight модель на сьогодні. Окрема інженерна деталь: гібридна увага дозволяє V4-Pro на контексті 1 млн токенів витрачати, за даними DeepSeek, лише 27% обчислень і 10% KV-кешу відносно попередньої версії V3.2 (це вендорська цифра, незалежного заміру поки немає). Ще один нюанс походження: V4 навчали на китайських чипах Huawei Ascend, а не на Nvidia, — на відміну від попередньої R1.
Це текстова модель. Мультимодальності (зображення, відео) на момент перевірки немає — її анонсували на другу половину 2026 року, але разом із V4 не відвантажили. Якщо вам потрібне розуміння зображень — це не сюди.
Шар 2 — DSpark (27 червня 2026). Це фреймворк спекулятивного декодування, який приробляється до вже готових ваг V4 і прискорює видачу токенів. Спекулятивне декодування — прийом, коли маленька «чорнова» модель вгадує кілька наступних токенів наперед, а велика лише перевіряє здогад разом, а не рахує кожен токен з нуля. Перенавчання основної моделі не потрібне. За власними продакшн-замірами DeepSeek, приріст швидкості на користувача становить 60–85% для Flash і 57–78% для Pro відносно колишньої базової лінії MTP-1, за того самого throughput. Це цифри вендора; рання стороння реплікація на GitHub показала скромніші, але якісно ті самі ~1,5× над MTP-1 на одиночному потоці. DSpark теж під MIT, і метод у принципі переноситься на інші моделі (Qwen, Gemma) — це цікаво навіть тим, хто сам DeepSeek не чіпатиме.
Коротко: V4 — це про якість і ціну, DSpark — про швидкість. Розробнику, який смикає модель через API, DSpark дає швидшу відповідь; на вибір самої моделі він не впливає.
Перевірка на завданнях
Про метод одразу: первинного прогону через платний API ми не робили, тож спираємося не на «ми потикали», а на відтворювані дані — задокументовані бенчмарки, незалежний державний аудит NIST CAISI і розгорнуту ручну перевірку носіїв мови. Розкладемо за типовими завданнями читача.
Код. Найсильніший бік. За SWE-bench Verified (пошук і полагодження реальних багів у репозиторіях) вендор заявляє 80,6%, незалежний аудит CAISI за своєю методикою — близько 74%: нижче, але й далі на рівні співставного GPT-5.4 mini. Рейтинг Codeforces 3206 і 93,5% на LiveCodeBench підтверджують — для роботи з кодом V4-Pro у вищій лізі.
Міркування й математика. Міцно, але не рекордно. На найскладнішому тесті HLE (без інструментів) V4-Pro дає 37,7% — нижче за Claude (40,0%), GPT-5.4 (39,8%) і помітно нижче за Gemini-3.1-Pro (44,4%). На найзаплутаніших завданнях найкращі західні моделі поки попереду.
Довгий контекст. Формально 1 млн токенів — можна закидати цілі кодові бази або великі документи. Інженерно це підкріплено гібридною увагою (за даними DeepSeek — 27% обчислень і 10% KV-кешу від попередньої версії на контексті 1М токенів; цифра вендорська, незалежного заміру поки немає).
Українська та російська мови. Тут є живе свідчення: розгорнута ручна перевірка на Habr показала, що V4 пише зв’язним, природним текстом, а старий баг попередніх версій — китайські ієрогліфи посеред тексту — не проявився. Це одне пряме спостереження, але показове для нашої аудиторії.
Тепер те, чого немає в більшості оглядів, — вендорські цифри поруч із незалежним державним аудитом NIST CAISI (США), що тестував V4-Pro у квітні 2026:Що вимірювали Заявляє DeepSeek (V4-Pro-Max) Що каже незалежний аудит NIST CAISI Загальний рівень На рівні свіжого фронтиру Відстає від фронтиру ~на 8 місяців, приблизно рівень GPT-5 (а не Opus 4.6 / GPT-5.4) Кодинг, SWE-bench Verified 80,6% розв’язано ~74% на методиці CAISI (нижче, різниця пояснена іншим scaffolding) LiveCodeBench 93,5% — Codeforces (рейтинг) 3206 — GPQA Diamond (наука) 90,1% — HLE (найскладніший тест, без інструментів) 37,7% Нижче за Claude (40,0%), GPT-5.4 (39,8%) і Gemini-3.1-Pro (44,4%)
Висновок простий і важливий: V4 — сильна модель, особливо за кодом, але не «вбивця фронтиру», як читається за вендорськими цифрами. CAISI не звинувачує DeepSeek у маніпуляції — розбіжність пояснює методикою (бюджет токенів, обв’язка), — але радить ставитися до самозаявлених чисел із поправкою.
Тарифи й ліміти
Найсильніший бік V4 — економіка через API. Ціни офіційного прайсингу DeepSeek на 4 липня 2026 (за 1 млн токенів):Модель Вхід (кеш-хіт) Вхід (кеш-міс) Вихід V4-Flash $0,0028 $0,14 $0,28 V4-Pro $0,003625 $0,435 $0,87
Тут є неочевидна деталь, яку мало хто проговорює: 75%-знижку на V4-Pro анонсували як тимчасове промо до 31 травня 2026, але потім закріпили як постійний тариф. Листова ціна Pro була $1,74/$3,48 (вхід-міс/вихід) — тепер це $0,435/$0,87 назавжди. Саме тому незалежна оцінка CAISI (зроблена на основі старої ціни, станом на квітень 2026) сьогодні вже занижує реальну економію: за її ж даними V4 був дешевшим за співставний GPT-5.4 mini на 5 із 7 тестів, а після закріплення знижки розрив тільки зріс.
Одне попередження на майбутнє: до «офіційного» релізу V4 в середині липня 2026 DeepSeek анонсувала пікові ціни — 2× до базової ставки в години пік за пекінським часом (поза піковими годинами ціна та сама). На дату цього огляду це анонс, а не чинний тариф, — але якщо плануєте навантаження, закладіть його. І ще: старі ідентифікатори deepseek-chat та deepseek-reasoner вимикаються 24 липня 2026 о 15:59 UTC — їх маршрутизують на deepseek-v4-flash.
Безкоштовний доступ теж є. Вебчат і мобільний застосунок DeepSeek працюють на актуальній моделі безкоштовно (з лімітами за пікового навантаження) — цього достатньо, щоб просто спробувати модель на своїх завданнях, не платячи за API. Платити потрібно лише за API: він працює за передплаченим балансом, геоблокувань для нашої аудиторії в сервісу немає. Важливе застереження щодо даних: і в безкоштовному чаті, і через API запити обробляються на інфраструктурі в КНР (докладніше — у розділі про ризики).
Локальний запуск — окрема й куди менш райдужна історія. Забігаючи наперед: на домашній відеокарті це не працює. Подробиці — у наступному блоці; якщо вам потрібен лише API, його можна пропустити.
Локальний запуск (можна пропустити, якщо не плануєте свій сервер)
Відкриті ваги ≠ «запущу на своєму ПК». Цифри чесні:
- V4-Pro (~865 ГБ) — реалістично лише на збірці з 4× GPU по 80 ГБ і вище, або на сервері. Для домашньої машини непідйомно.
- V4-Flash (~160 ГБ) — молодша модель, але й її мінімально життєздатний квант Q2_K потребує близько 103 ГБ VRAM. Це більше, ніж у чотирьох RTX 4090, разом узятих, — в одну споживчу карту (навіть RTX 5090) не влазить.
Плюс технічний нюанс, якого немає в більшості оглядів: стандартний llama.cpp не запускає V4 — архітектура всередині називається deepseek4, і потрібен зібраний зі спеціального форка/PR білд, інакше отримаєте помилку типу моделі. Якщо хочете помацати локальні LLM без серверної стійки, розумніше почати з менших моделей — наприклад, DeepSeek-R1 на своєму ПК. А якщо все ж мітите у великі MoE, погляньте, що потрібно за залізом, на прикладі робочої станції на RTX PRO 6000 Blackwell.
Проти альтернатив
| Критерій | DeepSeek V4-Pro | GPT-5.4 (OpenAI) | Claude Opus 4.x | Qwen3 / GLM-5.2 (open) |
|---|---|---|---|---|
| Ваги | Відкриті (MIT) | Закриті | Закриті | Відкриті |
| Ціна API | Дуже низька | Висока | Висока | Низька |
| Рівень (незал. аудит) | ~GPT-5, відставання ~8 міс | Фронтир | Фронтир | Співставний з V4 у нішах |
| Мультимодальність | Немає (поки) | Так | Так | Частково |
| Юрисдикція даних | КНР | США | США | КНР (Qwen/GLM) |
Розстановка проста. Потрібен максимум якості за будь-яку ціну — це закриті GPT-5.4 або Claude Opus. Потрібне найкраще співвідношення ціна/якість для коду й міркувань та/або відкриті ваги — DeepSeek V4 один із найсильніших варіантів на ринку. Серед інших відкритих моделей прямий конкурент — GLM-5.2 від Z.ai: варто порівняти їх на своїх завданнях.
Кому що обрати
- Розробнику / стартапу (через API): V4-Pro для складного коду й міркувань, V4-Flash — для масових дешевих завдань і чорнової обробки. Економіка найкраща в класі; DSpark дає швидкий відгук.
- Досліднику / ентузіасту: відкриті ваги під MIT — можна донавчати й вбудовувати без ліцензійних застережень. Але тверезо оцініть залізо (див. вище).
- Бізнесу з чутливими даними: зважте юрисдикцію. Для API-запитів дані йдуть на інфраструктуру в КНР — для багатьох сценаріїв це стоп-фактор (див. ризики).
- Звичайному користувачу для «поспілкуватися» й тексту: простіше й безпечніше взяти західний асистент; цінова перевага V4 розкривається на обсязі через API, а не в разових чатах.
Ризики й обмеження
Це розділ, який не можна пропускати (тема з розряду «ваші гроші й ваші дані»).
- Приватність і юрисдикція. У DeepSeek як сервісу є задокументована історія проблем: публічно відкрита база даних (витік, виявлений Wiz у січні 2025 року, понад 1 млн записів), повідомлення про передавання даних до Китаю без розкриття, а також блокування на держрівні в Італії (за GDPR), Австралії, Тайвані, у ВМС США та NASA. Ці інциденти стосуються компанії та сервісу 2025 року (до V4), не самої моделі, — але політика зберігання даних під юрисдикцією КНР актуальна й для V4/API. Відкриті ваги можна запускати у своєму контурі (тоді дані нікуди не йдуть) — але це впирається в залізо.
- Провенанс бенчмарків. Вендорські цифри оптимістичніші за незалежний аудит. Орієнтуйтеся на NIST CAISI як на противагу маркетингу.
- Цензура й вирівнювання. Модель навчена під китайську нормативку — на політично чутливих темах відповіді можуть бути відфільтровані. Для технічних завдань це частіше не заважає, але знати варто.
- Немає мультимодальності. Лише текст; зображення/відео анонсовані, але не випущені.
- Волатильність цін. Базовий тариф низький, але пікові ціни (2×) очікуються із середини липня 2026 — перевіряйте актуальний прайсинг перед серйозним навантаженням.
FAQ
DeepSeek-V4-Pro-DSpark — це нова, п’ята версія? Ні. Це той самий чекпойнт V4-Pro (квітень 2026) з прибудованим модулем прискорення DSpark (червень 2026). Сама назва на Hugging Face вводить в оману — нової моделі за нею немає.
Що конкретно дає DSpark? Прискорення видачі токенів через спекулятивне декодування: за замірами DeepSeek, на 60–85% швидше для V4-Flash і на 57–78% для V4-Pro відносно колишньої базової лінії, без втрати якості й без перенавчання моделі.
Скільки коштує DeepSeek V4 і це справді дешево? На 4 липня 2026 — від $0,14 до $0,87 за 1 млн токенів через офіційний API. Так, це одна з найдешевших моделей свого класу; 75%-знижку на Pro зробили постійною. Але до середини липня 2026 очікуються пікові надбавки.
Чи можна запустити DeepSeek V4 на домашньому ПК?
Практично ні. Навіть молодша V4-Flash у мінімальному робочому кванті потребує близько 103 ГБ VRAM — більше за чотири RTX 4090. V4-Pro (~865 ГБ) — лише серверні збірки 4×80 ГБ і вище. Плюс потрібен пропатчений llama.cpp.
DeepSeek V4 кращий за GPT чи Claude? За незалежним аудитом NIST CAISI V4 приблизно на рівні GPT-5 (відставання від свіжого фронтиру близько 8 місяців), тобто слабший за найновіші GPT-5.4 та Claude Opus на найскладніших завданнях. Але за ціною за розв’язане завдання V4 їх помітно обходить.
Чи безпечно надсилати дані в DeepSeek? Для чутливих даних — з обережністю: API-запити обробляються на інфраструктурі в КНР, а в сервісу є історія інцидентів із даними. Приватний сценарій — локальний запуск відкритих ваг, але він потребує дорогого заліза.
