Wispr Flow или свой Whisper: облачная и офлайн-диктовка

Коротко. Если коротко: «whisper flow» — это два разных мира, которые часто путают. Есть Wispr Flow — платное приложение-диктовка с ИИ-форматированием, у которого нет офлайн-режима: ваш голос всегда уходит на серверы компании. И есть локальная диктовка на OpenAI Whisper — бесплатная и работающая без интернета, которую вы ставите на свой компьютер сами. Поставить «whisper flow локально» в прямом смысле нельзя: сам Wispr Flow офлайн не работает. Зато можно собрать аналогичный по удобству инструмент на Whisper, который не отправляет ни байта в облако.

Эта статья закрывает оба запроса. Сначала разбираем Wispr Flow честно — тарифы, возможности и подводные камни приватности. Потом показываем, что нужно для локальной диктовки на Whisper, какую модель выбрать под ваше железо и как всё установить за 15–30 минут. В конце — таблица сравнения и матрица «кому что выбрать». Данные о тарифах и версиях актуальны на 16 июня 2026.

Что такое Wispr Flow и как он устроен

Wispr Flow — приложение для голосового ввода: вы зажимаете горячую клавишу, говорите, и распознанный текст вставляется в любое активное поле — письмо, мессенджер, редактор кода, заметку. От встроенной диктовки macOS или Windows его отличает слой ИИ: он убирает слова-паразиты и заминки, расставляет пунктуацию, форматирует списки и умеет выполнять команды редактирования голосом.

Приложение работает на Mac, Windows, iPhone и Android и заявляет поддержку 100+ языков, включая русский и украинский, с распознаванием переключения между языками внутри одной фразы. Это сильная сторона для тех, кто диктует на двух языках сразу.

Ключевой архитектурный факт, на котором держится вся статья: Wispr Flow обрабатывает речь только в облаке. Десктоп-клиент, который вы устанавливаете, — это лишь захват звука, горячие клавиши и интерфейс. Само распознавание происходит на серверах компании. Офлайн-режима у приложения нет — без интернета оно не работает. Это не догадка, а прямая формулировка с официальной страницы приватности: «Transcription always happens in the cloud to provide the best speed and accuracy» (по данным wisprflow.ai/privacy на 16 июня 2026).

Тарифы Wispr Flow: сколько это стоит

У Wispr Flow три плана. Бесплатный (Basic) даёт попробовать, но жёстко лимитирован по объёму; основной рабочий план — Pro.

ПланЦена (на 16.06.2026)Лимит словДля кого
Basic (free)$02 000 слов/нед на Mac/Windows; 1 000/нед на iPhone; на Android временно без лимитаПопробовать диктовку
Pro$15/мес помесячно или $12/мес при оплате за год ($144/год)Без лимитаЕжедневная работа
EnterpriseПо запросуБез лимитаКоманды, SOC 2, ISO 27001

Несколько важных деталей по цифрам. Лимит бесплатного плана — 2 000 слов в неделю на десктопе. Это примерно 8–10 коротких писем, то есть на полноценную ежедневную работу его не хватит — это именно демо-режим. Годовая подписка Pro выходит в $144 в год; помесячная — дороже, $15 в месяц. Разные источники называют годовую то как «$12/мес», то как «$143.99/год» — это одна и та же сумма, просто посчитанная по-разному.

Сертификаты безопасности (SOC 2 Type II, ISO 27001) доступны только на плане Enterprise, а соответствие HIPAA — на всех планах, но с подписанием отдельного соглашения (BAA). Для частного пользователя это означает: на тарифах Basic и Pro никаких enterprise-гарантий по обработке данных нет.

Главный нюанс: Privacy Mode — это не офлайн

Самая частая путаница вокруг Wispr Flow — режим приватности. В настройках есть Privacy Mode, и многие читают это как «теперь обработка идёт локально / без облака». Это не так, и разница принципиальна.

Что делает Privacy Mode: при включении компания не хранит ваши аудио, транскрипты и правки и не использует их для обучения моделей (формулировка wisprflow.ai/privacy: данные «isn’t stored or used for model training»). Это про хранение (zero data retention), а не про место обработки.

Чего Privacy Mode НЕ делает: он не превращает приложение в офлайн-инструмент. Аудио всё равно уходит на серверы — и при включённом Privacy Mode тоже. Просто после распознавания оно не сохраняется. Включается режим в Settings → Data & Privacy → Privacy Mode.

Почему это важно на практике — пройдём цепочку «что → почему → когда не подходит». Если вы диктуете обычные письма и заметки, облачная обработка с Privacy Mode — разумный компромисс: удобно, быстро, данные не копятся. Но если вы работаете под NDA, с медицинскими записями, юридическими документами или коммерческой тайной, то сам факт отправки аудио на сторонний сервер может нарушать ваши обязательства — независимо от того, хранит компания запись или нет. Для таких сценариев нужна настоящая локальная обработка, и Wispr Flow её не даёт ни на одном тарифе. Здесь и появляется Whisper.

Wispr Flow: сильные и слабые стороны

ПлюсыМинусы
ИИ-форматирование: чистит «эээ», ставит пунктуацию, делает спискиТолько облако, офлайн-режима нет
100+ языков, переключение языков в одной фразеПодписка $144/год за полноценную работу
Кроссплатформенность: Mac, Windows, iOS, AndroidБесплатный план — фактически демо (2 000 слов/нед)
Command mode — редактирование голосомЗаметное потребление ресурсов в фоне
Удобная установка, не требует технических навыковКачество распознавания RU/UA официально не раскрыто

Отдельно про противоречие со скриншотами. В независимых обзорах и вирусных тредах на Reddit задокументировано, что для «контекстной осведомлённости» Wispr Flow периодически снимает скриншоты активного окна и отправляет их в облако. Источник этой информации — в том числе обзор конкурента (в частности, Voibe) со ссылкой на треды Reddit, поэтому относиться к ней стоит критически, но игнорировать тоже нельзя: для работы с конфиденциальными документами это дополнительный канал утечки, который стоит проверить в настройках перед использованием.

Про рейтинги есть характерное расхождение: в iOS App Store у приложения ~4.8 из 5 (около 7,5 тыс. оценок), а на Trustpilot — 2.7 из 5. Это не противоречие, а разные аудитории: App Store отражает массового мобильного пользователя, Trustpilot собирает в основном жалобы (биллинг, Windows-баги, поддержка). Истина — посередине: продукт удобный, но к деталям подписки и стабильности на Windows есть вопросы.

Потребление ресурсов: по пользовательским замерам на Reddit (MacBook Pro 2021) приложение в простое держит ~800 МБ RAM и ~8% CPU. Это неофициальные данные одного источника, но они совпадают с общим ощущением «приложение заметно в фоне».

Локальная диктовка на Whisper: как это работает

Whisper — это открытая модель распознавания речи от OpenAI, выпущенная под лицензией MIT. MIT означает, что вы можете использовать её как угодно, в том числе коммерчески, без ограничений и без оплаты. Модель обучена на большом массиве разноязычного аудио (для базовых версий — порядка 680 тыс. часов; large-v3 дообучена на ещё большем наборе слабо размеченных данных) и хорошо понимает в том числе русский и украинский.

Важно различать модель и способ её запуска (бекенд). Сама модель Whisper — это файл с весами. Запускать её можно тремя основными способами:

  • Оригинальный Whisper (Python-пакет от OpenAI) — эталон, но самый медленный и прожорливый по памяти.
  • whisper.cpp (ggml-org, стабильная версия v1.8.6, MIT) — порт на C/C++ от автора llama.cpp. Работает на чистом CPU с SIMD-оптимизацией и через Metal на Apple Silicon (на маках инференс целиком идёт на GPU). Лучший выбор, когда нет дискретной видеокарты.
  • faster-whisper (SYSTRAN, на движке CTranslate2) — примерно в 4 раза быстрее оригинала при меньшем потреблении памяти за счёт квантизации INT8. Лучший выбор, когда важна скорость.

Все три бекенда используют одни и те же модели Whisper — отличается только движок. Поверх любого из них работают готовые приложения-диктовки, которые добавляют глобальную горячую клавишу и вставку текста в активное поле, как у Wispr Flow, — только локально.

Логика здесь та же, что и при запуске локальных языковых моделей: вы качаете веса, выбираете движок под своё железо и работаете офлайн. Если эта тема вам интересна шире диктовки, у нас есть разбор, как запустить Llama на своём компьютере — принципы выбора квантизации и расчёта памяти там те же.

Отдельно про украинский язык. Whisper мультиязычен и распознаёт украинский тем же набором моделей, что и русский, — отдельную модель ставить не нужно, достаточно указать язык флагом (-l uk в whisper.cpp или language="uk" в faster-whisper). Качество на украинском сопоставимо с русским и так же зависит от размера модели: tiny/base ошибаются часто, medium и large-v3 дают рабочий результат. Это преимущество локального Whisper перед многими облачными сервисами, которые украинский поддерживают хуже русского или не поддерживают вовсе.

Какую модель Whisper выбрать под ваше железо

У Whisper несколько размеров. Чем больше модель, тем точнее распознавание, но тем больше нужно памяти и тем медленнее работа. Главная фирменная таблица для локального запуска — модель против требований к железу (данные о VRAM и параметрах — из README репозитория openai/whisper, подтверждены независимым гидом localaimaster, проверка 16.06.2026):

МодельПараметрыVRAM (FP16)Скорость (vs large)Качество для русского
tiny39M~1 ГБ~10xНизкое, много ошибок
base74M~1 ГБ~7xСлабое
small244M~2 ГБ~4xСреднее
medium769M~5 ГБ~2xХорошее
large-v31.55B~10 ГБ (INT8 ~5 ГБ)1xЛучшее (WER ~4–5%)
turbo809M~6 ГБ~8xПочти как large-v3

Колонка «Скорость» — относительная, по данным README openai/whisper (замеры на GPU A100): во сколько раз модель быстрее large. Это ориентир, а не абсолют — на обычном CPU разрыв между размерами меньше, и реальные тайминги зависят от вашего железа (практические замеры — ниже, в разделе установки).

Несколько практических выводов из таблицы:

Для русского/украинского берите medium и выше. Мелкие модели (tiny, base) на этих языках дают много ошибок — они годятся для английского и тестов, но не для рабочей диктовки на RU/UA. По оценкам независимых тестов и сообщества, large-v3 на чистом аудио достигает WER около 4–5% для русского (это оценка, не peer-reviewed бенчмарк; абсолютную цифру стоит проверять на своём материале).

Для диктовки в реальном времени оптимальна turbo, а не large-v3. Turbo — официальная оптимизированная версия large-v3: декодер урезан с 32 слоёв до 4, за счёт чего она примерно в 8 раз быстрее, а точность падает всего на 1–2%. Для надиктовки фраз, где важна минимальная задержка, это почти всегда лучший компромисс.

INT8-квантизация вдвое снижает требования к VRAM. Через faster-whisper large-v3 укладывается не в ~10 ГБ, а примерно в ~5 ГБ, small — в ~1 ГБ вместо ~2. Это позволяет запускать качественные модели на бюджетных видеокартах с 6–8 ГБ. Если подбираете железо под локальный ИИ в целом, у нас есть отдельный разбор — как выбрать GPU и мини-ПК для локальных нейросетей.

Если же дискретной видеокарты нет вовсе, ориентир по скорости даёт whisper.cpp на CPU: на Ryzen 7 5700X модель small обрабатывает 60-минутное аудио примерно за 4 минуты 20 секунд, а large-v3 — около 38 минут. На Apple Silicon через Metal те же задачи ускоряются на 60–70% (small — ~1 мин 50 сек, large-v3 — ~12 мин 40 сек на M2 Pro). Для диктовки коротких фраз даже CPU справляется в реальном времени на моделях small/medium.

Как установить локальную диктовку: пошагово

Что понадобится: компьютер на macOS, Windows или Linux; 5–10 ГБ свободного места под модель; для GPU-ускорения — видеокарта NVIDIA (CUDA) или Apple Silicon. Ниже три пути — от самого простого к гибкому.

Вариант А. Готовое приложение (без терминала)

Самый простой путь, если вы не хотите трогать командную строку.

Для новичка на Mac — это самый беспроблемный способ получить локальную диктовку. Бесплатное приложение Fisper (fisper.app) делает ровно то, что Wispr Flow, но полностью офлайн: распознавание идёт на устройстве через Apple Neural Engine, аудио не пишется на диск, аккаунт и интернет не нужны. Внутри — те же модели Whisper в трёх размерах: Base (~150 МБ) для скорости, Small (~500 МБ) и Large-v3-turbo (~3 ГБ) для максимальной точности. Бесплатно навсегда, без подписок. Ограничение одно: только Mac на Apple Silicon (M1 и новее) с macOS 14 и выше — Intel-маки не поддерживаются.

Запуск Fisper за три шага:

  1. Установка. Скачайте DMG с fisper.app, перетащите Fisper в «Программы» и откройте из меню-бара.
  2. Разрешения. Выдайте доступ к микрофону и к «Универсальному доступу» (Accessibility) в Системных настройках — приложение подхватывает изменения сразу, без перезапуска.
  3. Диктовка. Скачайте модель прямо в приложении (для русского и украинского берите Large-v3-turbo ~3 ГБ), оставьте горячую клавишу по умолчанию (F5) или назначьте свою (есть ⌥Space, двойное нажатие правого ⌘ и другие). Дальше жмёте клавишу в любом приложении, говорите — текст печатается прямо у курсора в реальном времени. Русский и украинский поддерживаются, есть и автоопределение языка.

Это и есть «локальный Wispr Flow» для большинства Mac-пользователей: поставил, выдал два разрешения, скачал модель — и диктуешь без облака и без подписки.

Если же вы на Windows/Linux или хотите альтернативу:

  1. Whispering — бесплатное open-source приложение (Mac/Windows/Linux). Его обсуждали на Hacker News (591 балл, 152 комментария — высокий органический интерес). Скачайте релиз с GitHub, установите, выберите локальный бекенд (whisper.cpp), скачайте модель в самом приложении и назначьте горячую клавишу.
  2. Superwhisper (macOS, Windows, iOS) — платная, но умеет полностью офлайн на локальных моделях Whisper. Цена — $8.49/мес, около $84.99/год (на годовой тарифе «2 месяца бесплатно») или $249.99 разовой покупкой (lifetime), по данным spokenly.app и официального сайта на июнь 2026. Это прямой локальный аналог Wispr Flow: при покупке lifetime вы платите один раз, а обработка идёт на вашем устройстве.

После установки логика у всех одинаковая: задаёте hotkey, выбираете модель (для RU — medium или turbo), говорите — текст вставляется в активное поле.

Вариант Б. whisper.cpp через терминал (Mac/Linux, без GPU)

Лучший путь для машин без дискретной видеокарты. На Mac проще всего через Homebrew:

# установка
brew install whisper-cpp

# либо сборка из исходников (любая ОС)
git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp
sh ./models/download-ggml-model.sh medium
cmake -B build
cmake --build build -j --config Release

# распознать файл
./build/bin/whisper-cli -m models/ggml-medium.bin -l ru -f audio.wav

Флаг -l ru задаёт русский язык. На Apple Silicon сборка автоматически использует Metal — инференс пойдёт на GPU без дополнительных настроек. Для диктовки «в любое поле» поверх whisper.cpp ставится отдельная обёртка с горячей клавишей (например, проекты класса faster-whisper-dictation на GitHub).

Вариант В. faster-whisper на Python (Mac/Windows/Linux, с GPU)

Гибкий путь, когда нужна максимальная скорость и есть видеокарта NVIDIA:

pip install -U faster-whisper   # ставьте свежую версию с PyPI
from faster_whisper import WhisperModel

# int8 вдвое снижает требования к VRAM
model = WhisperModel("large-v3", device="cuda", compute_type="int8")
segments, info = model.transcribe("audio.wav", language="ru")
for s in segments:
    print(s.text)

compute_type="int8" включает квантизацию — именно она позволяет уложить large-v3 в ~5 ГБ VRAM. Для готовой диктовки с глобальным хоткеем используйте обёртку вроде faster-whisper-dictation (репозиторий bhargavchippada на GitHub) — она ловит нажатие клавиши, пишет с микрофона и вставляет результат.

Типичные ошибки установки: на Windows для faster-whisper нужны библиотеки cuDNN/CUDA нужной версии — если видите ошибку про DLL, переходите на device="cpu" либо доставьте CUDA Toolkit; на маках с малым объёмом памяти large-v3 может не влезть — берите turbo или medium.

Wispr Flow против локального Whisper: что выбрать

Теперь сведём всё в одну таблицу (оценки актуальны на 16.06.2026):

КритерийWispr FlowЛокальный Whisper
ОбработкаТолько облакоПолностью локально (офлайн)
ПриватностьАудио уходит на сервер; Privacy Mode = не хранятНичего не покидает устройство
Цена$144/год (Pro)$0 (модель и софт бесплатны)
Точность RU/UAВысокая (официально не раскрыта)Высокая на medium/large-v3
ИИ-форматированиеДа, из коробкиБазовое; зависит от приложения
Простота стартаОчень простаяОт простой (GUI) до средней (терминал)
Требования к железуЛюбой ПК + интернетНужны RAM/VRAM под модель
Работа без интернетаНетДа

Экономика за 3 года. Wispr Flow Pro — это $144 × 3 = $432. Локальный Whisper — $0 (модель под MIT, бекенды бесплатны), при условии, что подходящий компьютер у вас уже есть. Superwhisper как платный, но локальный компромисс — $249.99 один раз навсегда. Этого расчёта почти нет в русскоязычных обзорах, а он часто решающий.

Матрица решений — кому что:

  • Пишете много, цените готовое удобство, данные не критичны → Wispr Flow Pro.
  • Нужна диктовка без интернета или под NDA/медицину/юриспруденцию → локальный Whisper (medium/large-v3) или Superwhisper офлайн.
  • Хотите бесплатно и не боитесь терминала → whisper.cpp или faster-whisper.
  • Хотите локально, но без командной строки → на Mac (Apple Silicon) проще всего Fisper (бесплатно, на Apple Neural Engine); на любой ОС — Whispering (бесплатно) или Superwhisper (платно).
  • Слабый ПК или Windows без видеокарты → whisper.cpp на CPU или Whispering в CPU-режиме, модель small/medium.

Риски и подводные камни

Честно о том, где каждый вариант ломается.

Wispr Flow:Приватность по умолчанию. Аудио и, по ряду отчётов, скриншоты активного окна уходят в облако. Privacy Mode отключает хранение, но не отправку — проверьте настройки перед работой с чувствительными данными. — Стоимость на длинной дистанции. $432 за три года — ощутимо, если использовать каждый день годами. — Стабильность на Windows. Часть негативных отзывов на Trustpilot — про баги именно на Windows и про сложности с отменой подписки.

Локальный Whisper:Требования к памяти и OOM. Если модель не влезает в VRAM, вы получите ошибку out-of-memory. Решение: брать модель поменьше (turbo вместо large-v3) или включать INT8-квантизацию. — Качество русского у мелких моделей. tiny и base на RU/UA дают много ошибок — не экономьте на размере, если язык не английский. — Сложность установки через терминал. Путь Б и В требуют базовых навыков командной строки; для новичков честнее начать с GUI-приложения. — Перегрев при долгих сессиях. Длинная транскрипция нагружает GPU/CPU — на ноутбуках следите за температурами. Если планируете много локального ИИ, под него стоит подбирать видеокарту осознанно — см. подборку GPU для нейросетей. — Безопасность загружаемых моделей. Скачивайте веса только с официальных репозиториев (Hugging Face openai/*, GitHub ggml-org) — не с случайных зеркал.

Баланс: облако выигрывает в удобстве «из коробки» и встроенном ИИ-форматировании, локалка — в приватности, цене и независимости от интернета. Идеального варианта нет, есть подходящий под вашу задачу.

FAQ

Можно ли установить Wispr Flow локально, чтобы он работал офлайн? Нет. Wispr Flow обрабатывает речь только в облаке — у него нет офлайн-режима ни на одном тарифе. Десктоп-приложение устанавливается на компьютер, но без интернета не работает. Если нужна именно локальная диктовка, ставьте решение на Whisper (whisper.cpp, faster-whisper) или платный, но офлайновый Superwhisper.

Privacy Mode в Wispr Flow делает обработку локальной? Нет. Privacy Mode отключает хранение ваших данных и их использование для обучения, но аудио всё равно отправляется на серверы для распознавания. Это режим «не хранить», а не «не отправлять».

Какая модель Whisper нужна для русского языка? Для рабочего качества на русском берите medium (~5 ГБ VRAM) или large-v3 (~10 ГБ, либо ~5 ГБ через INT8). Для диктовки в реальном времени удобнее turbo — она почти не уступает large-v3 в точности, но в ~8 раз быстрее. Мелкие tiny/base на русском ошибаются слишком часто.

Сколько стоит локальная диктовка на Whisper? Сама модель и бекенды (whisper.cpp, faster-whisper) бесплатны и открыты под лицензией MIT — платить не нужно. Единственные затраты — это железо, если его ещё нет, или разовая покупка удобного приложения вроде Superwhisper ($249.99 навсегда), если не хотите возиться с настройкой.

Запустится ли Whisper без видеокарты? Да. whisper.cpp работает на чистом CPU: модель small обрабатывает час аудио примерно за 4 минуты на современном процессоре, а короткие фразы для диктовки — практически в реальном времени. Для больших моделей и длинных записей видеокарта ускоряет процесс в разы, но для повседневной диктовки она не обязательна.

Whisper точнее, чем встроенная диктовка Windows или macOS? На русском и украинском обычно да, особенно модели medium и выше: Whisper лучше справляется с пунктуацией, акцентами и техническими терминами. Встроенная системная диктовка быстрее стартует и не требует настройки, но заметно уступает в качестве на неанглийских языках.

Поделиться
Связаться:
Крипто- и data-аналитик, инженер-программист (факультет компьютерных наук ХНУРЭ). В IT с 2008 года: администрировал корпоративный мониторинг в «Vodafone Украина», семь лет разрабатывал и продвигал веб-проекты, пять лет руководил маркетингом на метриках — конверсия, CTR, ROI, LTV.Криптовалютными рынками занимаюсь с 2021 года: ончейн-метрики, токеномика, макроэкономические индикаторы. Разработал собственную data-driven модель анализа рынка на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математическая статистика и EDA; сбор и сверку данных автоматизирую AI-агентами.Принцип — «Don't trust, verify»: каждая цифра проверена по первоисточнику, ключевые — минимум по двум независимым; прогнозы — только сценарии с условиями. Тезис без данных не публикуется.