DeepSeek V4 Pro и DSpark: обзор, цены, бенчмарки

Коротко (TL;DR)

Если вы увидели в трендах Hugging Face название DeepSeek-V4-Pro-DSpark и подумали, что вышла пятая версия, — нет. DSpark — это не новая модель, а модуль ускорения поверх уже существующего DeepSeek V4 (сам V4 вышел ещё в апреле 2026-го). Это прямо написано в карточке модели и подтверждено независимыми изданиями. Разбираемся в двух слоях отдельно: что такое сам V4 как модель и что к нему добавляет DSpark.

Коротко (TL;DR)
Что это и что умеет
Проверка на задачах: вендорские цифры против независимого аудита
Тарифы и лимиты
Против альтернатив
Кому что выбрать
Риски и ограничения
FAQ

Вердикт по существу:

Кому подходит: тем, кто хочет топовую модель для кода и рассуждений по цене на порядок ниже западных аналогов — через API. И энтузиастам, у кого есть серверное железо для локального запуска.
Кому не подходит: тем, кто рассчитывает запустить это на домашней видеокарте (не выйдет, см. раздел про железо), кому нужна работа с картинками и видео (мультимодальности пока нет), и тем, для кого критична приватность данных под юрисдикцией КНР.
Цена: от $0,14 до $0,87 за 1 млн токенов через официальный API (на 4 июля 2026) — одна из самых дешёвых моделей своего класса.
Главные конкуренты: по качеству — закрытые GPT-5.4 и Claude Opus (V4 их пока не догоняет на сложнейших задачах, но радикально дешевле); среди открытых моделей — GLM-5.2 и Qwen3. Независимый аудит NIST ставит V4 примерно на уровень GPT-5.

Что это и что умеет

Здесь важно разделить два разных события, которые слились в одно название на Hugging Face.

Слой 1 — сама модель DeepSeek V4 (апрель 2026). Это флагманская линейка китайской DeepSeek из двух моделей с архитектурой MoE (mixture-of-experts, «смесь экспертов» — когда на каждый запрос работает не вся сеть, а только нужная часть «экспертов»):

V4-Pro — 1,6 трлн параметров всего, 49 млрд активных;
V4-Flash — 284 млрд всего, 13 млрд активных.

Обе поддерживают контекст в 1 млн токенов и лицензированы под MIT — то есть полностью открытые веса, включая коммерческое использование. Для сравнения масштаба: V4-Pro на диске занимает около 865 ГБ — это крупнейшая опубликованная open-weight модель на сегодня. Отдельная инженерная деталь: гибридное внимание позволяет V4-Pro на контексте 1 млн токенов тратить, по данным DeepSeek, лишь 27% вычислений и 10% KV-кэша относительно прошлой версии V3.2 (это вендорская цифра, независимого замера пока нет). Ещё один нюанс происхождения: V4 обучали на китайских чипах Huawei Ascend, а не на Nvidia, — в отличие от прошлой R1.

Это текстовая модель. Мультимодальности (картинки, видео) на момент проверки нет — её анонсировали на вторую половину 2026 года, но вместе с V4 не отгрузили. Если вам нужно понимание изображений — это не сюда.

Слой 2 — DSpark (27 июня 2026). Это фреймворк спекулятивного декодирования, который приделывается к уже готовым весам V4 и ускоряет выдачу токенов. Спекулятивное декодирование — приём, когда маленькая «черновая» модель угадывает несколько следующих токенов вперёд, а большая лишь проверяет догадку разом, а не считает каждый токен с нуля. Переобучения основной модели не требуется. По собственным продакшн-замерам DeepSeek, прирост скорости на пользователя составляет 60–85% для Flash и 57–78% для Pro относительно прежней базовой линии MTP-1, при том же общем throughput. Это цифры вендора; ранняя сторонняя репликация на GitHub показала более скромные, но качественно те же ~1,5× над MTP-1 на одиночном потоке. DSpark тоже под MIT, и метод в принципе переносится на другие модели (Qwen, Gemma) — это интересно даже тем, кто сам DeepSeek трогать не будет.

Коротко: V4 — это про качество и цену, DSpark — про скорость. Разработчику, который дёргает модель через API, DSpark даёт более быстрый ответ; на выбор самой модели он не влияет.

Проверка на задачах: вендорские цифры против независимого аудита

О методе сразу: первичный прогон через платный API мы не делали, поэтому опираемся не на «мы потыкали», а на воспроизводимые данные — задокументированные бенчмарки, независимый государственный аудит NIST CAISI и развёрнутую ручную проверку носителей языка. Разложим по типовым задачам читателя.

Код. Самая сильная сторона. По SWE-bench Verified (поиск и починка реальных багов в репозиториях) вендор заявляет 80,6%, независимый аудит CAISI на своей методике — около 74%: ниже, но по-прежнему на уровне сопоставимого GPT-5.4 mini. Рейтинг Codeforces 3206 и 93,5% на LiveCodeBench подтверждают — для работы с кодом V4-Pro в высшей лиге.

Рассуждения и математика. Крепко, но не рекордно. На сложнейшем тесте HLE (без инструментов) V4-Pro даёт 37,7% — ниже Claude (40,0%), GPT-5.4 (39,8%) и заметно ниже Gemini-3.1-Pro (44,4%). На самых заковыристых задачах лучшие западные модели пока впереди.

Длинный контекст. Формально 1 млн токенов — можно закидывать целые кодовые базы или большие документы. Инженерно это подкреплено гибридным вниманием (по данным DeepSeek — 27% вычислений и 10% KV-кэша от прошлой версии на контексте 1М токенов; цифра вендорская, независимого замера пока нет).

Русский язык. Тут есть живое свидетельство: развёрнутая ручная проверка на Habr показала, что V4 пишет связным, естественным русским, а старый баг прошлых версий — китайские иероглифы посреди русского текста — не проявился. Это одно прямое наблюдение, но показательное для нашей аудитории.

Теперь то, чего нет у большинства обзоров, — вендорские цифры рядом с независимым государственным аудитом NIST CAISI (США), тестировавшим V4-Pro в апреле 2026:

Что измеряли	Заявляет DeepSeek (V4-Pro-Max)	Что говорит независимый аудит NIST CAISI
Общий уровень	На уровне свежего фронтира	Отстаёт от фронтира ~на 8 месяцев, примерно уровень GPT-5 (а не Opus 4.6 / GPT-5.4)
Кодинг, SWE-bench Verified	80,6% решено	~74% на методике CAISI (ниже, разница объяснена другим scaffolding)
LiveCodeBench	93,5%	—
Codeforces (рейтинг)	3206	—
GPQA Diamond (наука)	90,1%	—
HLE (сложнейший тест, без инструментов)	37,7%	Ниже Claude (40,0%), GPT-5.4 (39,8%) и Gemini-3.1-Pro (44,4%)

Вывод простой и важный: V4 — сильная модель, особенно по коду, но не «убийца фронтира», как читается по вендорским цифрам. CAISI не обвиняет DeepSeek в манипуляции — расхождение объясняет методикой (бюджет токенов, обвязка), — но советует относиться к самозаявленным числам с поправкой.

Тарифы и лимиты

Самая сильная сторона V4 — экономика через API. Цены официального прайсинга DeepSeek на 4 июля 2026 (за 1 млн токенов):

Модель	Вход (кэш-хит)	Вход (кэш-мисс)	Выход
V4-Flash	$0,0028	$0,14	$0,28
V4-Pro	$0,003625	$0,435	$0,87

Здесь есть неочевидная деталь, которую мало кто проговаривает: 75%-скидка на V4-Pro была анонсирована как временное промо до 31 мая 2026, но затем закреплена как постоянный тариф. Листовая цена Pro была $1,74/$3,48 (вход-мисс/выход) — теперь это $0,435/$0,87 навсегда. Именно поэтому независимая оценка CAISI (считавшая по старой цене) сегодня уже занижает реальную экономию: по её же данным V4 был дешевле сопоставимого GPT-5.4 mini на 5 из 7 тестов, а после закрепления скидки разрыв только вырос.

Одно предупреждение на будущее: к «официальному» релизу V4 в середине июля 2026 DeepSeek анонсировала пиковые цены — 2× к базовой ставке в часы пик по пекинскому времени (вне пиковых часов цена та же). На дату этого обзора это анонс, а не действующий тариф, — но если планируете нагрузку, заложите его. И ещё: старые идентификаторы deepseek-chat и deepseek-reasoner отключаются 24 июля 2026 в 15:59 UTC — их маршрутизируют на deepseek-v4-flash.

Бесплатный доступ тоже есть. Веб-чат и мобильное приложение DeepSeek работают на актуальной модели бесплатно (с лимитами при пиковой нагрузке) — этого достаточно, чтобы просто попробовать модель на своих задачах, не платя за API. Платить нужно только за API: он работает по предоплаченному балансу, геоблокировок для нашей аудитории у сервиса нет. Важная оговорка по данным: и в бесплатном чате, и через API запросы обрабатываются на инфраструктуре в КНР (подробнее — в разделе про риски).

Локальный запуск — отдельная и куда менее радужная история. Забегая вперёд: на домашней видеокарте это не работает. Подробности — в следующем блоке; если вам нужен только API, его можно пропустить.

Локальный запуск (можно пропустить, если не планируете свой сервер)

Открытые веса ≠ «запущу на своём ПК». Цифры честные:

V4-Pro (~865 ГБ) — реалистично только на сборке из 4× GPU по 80 ГБ и выше, либо на сервере. Для домашней машины неподъёмно.
V4-Flash (~160 ГБ) — младшая модель, но и её минимально жизнеспособный квант Q2_K требует около 103 ГБ VRAM. Это больше, чем у четырёх RTX 4090, вместе взятых, — в одну потребительскую карту (даже RTX 5090) не влезает.

Плюс технический нюанс, которого нет в большинстве обзоров: стандартный llama.cpp не запускает V4 — архитектура внутри называется deepseek4, и нужен собранный из специального форка/PR билд, иначе получите ошибку типа модели.

Если хотите пощупать локальные LLM без серверной стойки, разумнее начать с моделей поменьше — например, DeepSeek-R1 на своём ПК. А если всё же метите в большие MoE, посмотрите, что требуется по железу, на примере рабочей станции на RTX PRO 6000 Blackwell.

Против альтернатив

Критерий	DeepSeek V4-Pro	GPT-5.4 (OpenAI)	Claude Opus 4.x	Qwen3 / GLM-5.2 (open)
Веса	Открытые (MIT)	Закрытые	Закрытые	Открытые
Цена API	Очень низкая	Высокая	Высокая	Низкая
Уровень (незав. аудит)	~GPT-5, отставание ~8 мес	Фронтир	Фронтир	Сопоставим с V4 в нишах
Мультимодальность	Нет (пока)	Да	Да	Частично
Юрисдикция данных	КНР	США	США	КНР (Qwen/GLM)

Расстановка простая. Нужен максимум качества любой ценой — это закрытые GPT-5.4 или Claude Opus. Нужно лучшее соотношение цена/качество для кода и рассуждений и/или открытые веса — DeepSeek V4 один из сильнейших вариантов на рынке. Среди других открытых моделей прямой конкурент — GLM-5.2 от Z.ai: стоит сравнить их на своих задачах.

Кому что выбрать

Разработчику / стартапу (через API): V4-Pro для сложного кода и рассуждений, V4-Flash — для массовых дешёвых задач и черновой обработки. Экономика лучшая в классе; DSpark даёт быстрый отклик.
Исследователю / энтузиасту: открытые веса под MIT — можно дообучать и встраивать без лицензионных оговорок. Но трезво оцените железо (см. выше).
Бизнесу с чувствительными данными: взвесьте юрисдикцию. Для API-запросов данные уходят на инфраструктуру в КНР — для многих сценариев это стоп-фактор (см. риски).
Обычному пользователю для «поболтать» и текста: проще и безопаснее взять западный ассистент; ценовое преимущество V4 раскрывается на объёме через API, а не в разовых чатах.

Риски и ограничения

Это раздел, который нельзя пропускать (тема из разряда «ваши деньги и ваши данные»).

Приватность и юрисдикция. У DeepSeek как сервиса есть задокументированная история проблем: публично открытая база данных (утечка, обнаруженная Wiz в январе 2025 года, свыше 1 млн записей), сообщения о передаче данных в Китай без раскрытия, а также блокировки на госуровне в Италии (по GDPR), Австралии, Тайване, у ВМС США и NASA. Эти инциденты относятся к компании и сервису 2025 года (до V4), не к самой модели, — но политика хранения данных под юрисдикцией КНР актуальна и для V4/API. Открытые веса можно запускать в своём контуре (тогда данные никуда не уходят) — но это упирается в железо.
Провенанс бенчмарков. Вендорские цифры оптимистичнее независимого аудита. Ориентируйтесь на NIST CAISI как на противовес маркетингу.
Цензура и выравнивание. Модель обучена под китовскую нормативку — на политически чувствительных темах ответы могут быть отфильтрованы. Для технических задач это чаще не мешает, но знать стоит.
Нет мультимодальности. Только текст; картинки/видео анонсированы, но не выпущены.
Волатильность цен. Базовый тариф низкий, но пиковые цены (2×) ожидаются с середины июля 2026 — проверяйте актуальный прайсинг перед серьёзной нагрузкой.

FAQ

DeepSeek-V4-Pro-DSpark — это новая, пятая версия? Нет. Это тот же чекпойнт V4-Pro (апрель 2026) с приделанным модулем ускорения DSpark (июнь 2026). Само название на Hugging Face вводит в заблуждение — новой модели за ним нет.

Что конкретно даёт DSpark? Ускорение выдачи токенов через спекулятивное декодирование: по замерам DeepSeek, на 60–85% быстрее для V4-Flash и на 57–78% для V4-Pro относительно прежней базовой линии, без потери качества и без переобучения модели.

Сколько стоит DeepSeek V4 и это правда дёшево? На 4 июля 2026 — от $0,14 до $0,87 за 1 млн токенов через официальный API. Да, это одна из самых дешёвых моделей своего класса; 75%-скидку на Pro сделали постоянной. Но к середине июля 2026 ожидаются пиковые надбавки.

Можно ли запустить DeepSeek V4 на домашнем ПК? Практически нет. Даже младшая V4-Flash в минимальном рабочем кванте требует около 103 ГБ VRAM — больше четырёх RTX 4090. V4-Pro (~865 ГБ) — только серверные сборки 4×80 ГБ и выше. Плюс нужен пропатченный llama.cpp.

DeepSeek V4 лучше GPT или Claude? По независимому аудиту NIST CAISI V4 примерно на уровне GPT-5 (отставание от свежего фронтира около 8 месяцев), то есть слабее самых новых GPT-5.4 и Claude Opus на сложнейших задачах. Но по цене за решённую задачу V4 их заметно обходит.

Безопасно ли отправлять данные в DeepSeek? Для чувствительных данных — с осторожностью: API-запросы обрабатываются на инфраструктуре в КНР, а у сервиса есть история инцидентов с данными. Приватный сценарий — локальный запуск открытых весов, но он требует дорогого железа.