Коротко. Если коротко: «whisper flow» — это два разных мира, которые часто путают. Есть Wispr Flow — платное приложение-диктовка с ИИ-форматированием, у которого нет офлайн-режима: ваш голос всегда уходит на серверы компании. И есть локальная диктовка на OpenAI Whisper — бесплатная и работающая без интернета, которую вы ставите на свой компьютер сами. Поставить «whisper flow локально» в прямом смысле нельзя: сам Wispr Flow офлайн не работает. Зато можно собрать аналогичный по удобству инструмент на Whisper, который не отправляет ни байта в облако.
- Что такое Wispr Flow и как он устроен
- Тарифы Wispr Flow: сколько это стоит
- Главный нюанс: Privacy Mode — это не офлайн
- Wispr Flow: сильные и слабые стороны
- Локальная диктовка на Whisper: как это работает
- Какую модель Whisper выбрать под ваше железо
- Как установить локальную диктовку: пошагово
- Wispr Flow против локального Whisper: что выбрать
- Риски и подводные камни
- FAQ
Эта статья закрывает оба запроса. Сначала разбираем Wispr Flow честно — тарифы, возможности и подводные камни приватности. Потом показываем, что нужно для локальной диктовки на Whisper, какую модель выбрать под ваше железо и как всё установить за 15–30 минут. В конце — таблица сравнения и матрица «кому что выбрать». Данные о тарифах и версиях актуальны на 16 июня 2026.
Что такое Wispr Flow и как он устроен
Wispr Flow — приложение для голосового ввода: вы зажимаете горячую клавишу, говорите, и распознанный текст вставляется в любое активное поле — письмо, мессенджер, редактор кода, заметку. От встроенной диктовки macOS или Windows его отличает слой ИИ: он убирает слова-паразиты и заминки, расставляет пунктуацию, форматирует списки и умеет выполнять команды редактирования голосом.
Приложение работает на Mac, Windows, iPhone и Android и заявляет поддержку 100+ языков, включая русский и украинский, с распознаванием переключения между языками внутри одной фразы. Это сильная сторона для тех, кто диктует на двух языках сразу.
Ключевой архитектурный факт, на котором держится вся статья: Wispr Flow обрабатывает речь только в облаке. Десктоп-клиент, который вы устанавливаете, — это лишь захват звука, горячие клавиши и интерфейс. Само распознавание происходит на серверах компании. Офлайн-режима у приложения нет — без интернета оно не работает. Это не догадка, а прямая формулировка с официальной страницы приватности: «Transcription always happens in the cloud to provide the best speed and accuracy» (по данным wisprflow.ai/privacy на 16 июня 2026).
Тарифы Wispr Flow: сколько это стоит
У Wispr Flow три плана. Бесплатный (Basic) даёт попробовать, но жёстко лимитирован по объёму; основной рабочий план — Pro.План Цена (на 16.06.2026) Лимит слов Для кого Basic (free) $0 2 000 слов/нед на Mac/Windows; 1 000/нед на iPhone; на Android временно без лимита Попробовать диктовку Pro $15/мес помесячно или $12/мес при оплате за год ($144/год) Без лимита Ежедневная работа Enterprise По запросу Без лимита Команды, SOC 2, ISO 27001
Несколько важных деталей по цифрам. Лимит бесплатного плана — 2 000 слов в неделю на десктопе. Это примерно 8–10 коротких писем, то есть на полноценную ежедневную работу его не хватит — это именно демо-режим. Годовая подписка Pro выходит в $144 в год; помесячная — дороже, $15 в месяц. Разные источники называют годовую то как «$12/мес», то как «$143.99/год» — это одна и та же сумма, просто посчитанная по-разному.
Сертификаты безопасности (SOC 2 Type II, ISO 27001) доступны только на плане Enterprise, а соответствие HIPAA — на всех планах, но с подписанием отдельного соглашения (BAA). Для частного пользователя это означает: на тарифах Basic и Pro никаких enterprise-гарантий по обработке данных нет.
Главный нюанс: Privacy Mode — это не офлайн
Самая частая путаница вокруг Wispr Flow — режим приватности. В настройках есть Privacy Mode, и многие читают это как «теперь обработка идёт локально / без облака». Это не так, и разница принципиальна.
Что делает Privacy Mode: при включении компания не хранит ваши аудио, транскрипты и правки и не использует их для обучения моделей (формулировка wisprflow.ai/privacy: данные «isn’t stored or used for model training»). Это про хранение (zero data retention), а не про место обработки.
Чего Privacy Mode НЕ делает: он не превращает приложение в офлайн-инструмент. Аудио всё равно уходит на серверы — и при включённом Privacy Mode тоже. Просто после распознавания оно не сохраняется. Включается режим в Settings → Data & Privacy → Privacy Mode.
Почему это важно на практике — пройдём цепочку «что → почему → когда не подходит». Если вы диктуете обычные письма и заметки, облачная обработка с Privacy Mode — разумный компромисс: удобно, быстро, данные не копятся. Но если вы работаете под NDA, с медицинскими записями, юридическими документами или коммерческой тайной, то сам факт отправки аудио на сторонний сервер может нарушать ваши обязательства — независимо от того, хранит компания запись или нет. Для таких сценариев нужна настоящая локальная обработка, и Wispr Flow её не даёт ни на одном тарифе. Здесь и появляется Whisper.
Wispr Flow: сильные и слабые стороны
| Плюсы | Минусы |
|---|---|
| ИИ-форматирование: чистит «эээ», ставит пунктуацию, делает списки | Только облако, офлайн-режима нет |
| 100+ языков, переключение языков в одной фразе | Подписка $144/год за полноценную работу |
| Кроссплатформенность: Mac, Windows, iOS, Android | Бесплатный план — фактически демо (2 000 слов/нед) |
| Command mode — редактирование голосом | Заметное потребление ресурсов в фоне |
| Удобная установка, не требует технических навыков | Качество распознавания RU/UA официально не раскрыто |
Отдельно про противоречие со скриншотами. В независимых обзорах и вирусных тредах на Reddit задокументировано, что для «контекстной осведомлённости» Wispr Flow периодически снимает скриншоты активного окна и отправляет их в облако. Источник этой информации — в том числе обзор конкурента (в частности, Voibe) со ссылкой на треды Reddit, поэтому относиться к ней стоит критически, но игнорировать тоже нельзя: для работы с конфиденциальными документами это дополнительный канал утечки, который стоит проверить в настройках перед использованием.
Про рейтинги есть характерное расхождение: в iOS App Store у приложения ~4.8 из 5 (около 7,5 тыс. оценок), а на Trustpilot — 2.7 из 5. Это не противоречие, а разные аудитории: App Store отражает массового мобильного пользователя, Trustpilot собирает в основном жалобы (биллинг, Windows-баги, поддержка). Истина — посередине: продукт удобный, но к деталям подписки и стабильности на Windows есть вопросы.
Потребление ресурсов: по пользовательским замерам на Reddit (MacBook Pro 2021) приложение в простое держит ~800 МБ RAM и ~8% CPU. Это неофициальные данные одного источника, но они совпадают с общим ощущением «приложение заметно в фоне».
Локальная диктовка на Whisper: как это работает
Whisper — это открытая модель распознавания речи от OpenAI, выпущенная под лицензией MIT. MIT означает, что вы можете использовать её как угодно, в том числе коммерчески, без ограничений и без оплаты. Модель обучена на большом массиве разноязычного аудио (для базовых версий — порядка 680 тыс. часов; large-v3 дообучена на ещё большем наборе слабо размеченных данных) и хорошо понимает в том числе русский и украинский.
Важно различать модель и способ её запуска (бекенд). Сама модель Whisper — это файл с весами. Запускать её можно тремя основными способами:
- Оригинальный Whisper (Python-пакет от OpenAI) — эталон, но самый медленный и прожорливый по памяти.
- whisper.cpp (ggml-org, стабильная версия v1.8.6, MIT) — порт на C/C++ от автора llama.cpp. Работает на чистом CPU с SIMD-оптимизацией и через Metal на Apple Silicon (на маках инференс целиком идёт на GPU). Лучший выбор, когда нет дискретной видеокарты.
- faster-whisper (SYSTRAN, на движке CTranslate2) — примерно в 4 раза быстрее оригинала при меньшем потреблении памяти за счёт квантизации INT8. Лучший выбор, когда важна скорость.
Все три бекенда используют одни и те же модели Whisper — отличается только движок. Поверх любого из них работают готовые приложения-диктовки, которые добавляют глобальную горячую клавишу и вставку текста в активное поле, как у Wispr Flow, — только локально.
Логика здесь та же, что и при запуске локальных языковых моделей: вы качаете веса, выбираете движок под своё железо и работаете офлайн. Если эта тема вам интересна шире диктовки, у нас есть разбор, как запустить Llama на своём компьютере — принципы выбора квантизации и расчёта памяти там те же.
Отдельно про украинский язык. Whisper мультиязычен и распознаёт украинский тем же набором моделей, что и русский, — отдельную модель ставить не нужно, достаточно указать язык флагом (-l uk в whisper.cpp или language="uk" в faster-whisper). Качество на украинском сопоставимо с русским и так же зависит от размера модели: tiny/base ошибаются часто, medium и large-v3 дают рабочий результат. Это преимущество локального Whisper перед многими облачными сервисами, которые украинский поддерживают хуже русского или не поддерживают вовсе.
Какую модель Whisper выбрать под ваше железо
У Whisper несколько размеров. Чем больше модель, тем точнее распознавание, но тем больше нужно памяти и тем медленнее работа. Главная фирменная таблица для локального запуска — модель против требований к железу (данные о VRAM и параметрах — из README репозитория openai/whisper, подтверждены независимым гидом localaimaster, проверка 16.06.2026):Модель Параметры VRAM (FP16) Скорость (vs large) Качество для русского tiny 39M ~1 ГБ ~10x Низкое, много ошибок base 74M ~1 ГБ ~7x Слабое small 244M ~2 ГБ ~4x Среднее medium 769M ~5 ГБ ~2x Хорошее large-v3 1.55B ~10 ГБ (INT8 ~5 ГБ) 1x Лучшее (WER ~4–5%) turbo 809M ~6 ГБ ~8x Почти как large-v3
Колонка «Скорость» — относительная, по данным README openai/whisper (замеры на GPU A100): во сколько раз модель быстрее large. Это ориентир, а не абсолют — на обычном CPU разрыв между размерами меньше, и реальные тайминги зависят от вашего железа (практические замеры — ниже, в разделе установки).
Несколько практических выводов из таблицы:
Для русского/украинского берите medium и выше. Мелкие модели (tiny, base) на этих языках дают много ошибок — они годятся для английского и тестов, но не для рабочей диктовки на RU/UA. По оценкам независимых тестов и сообщества, large-v3 на чистом аудио достигает WER около 4–5% для русского (это оценка, не peer-reviewed бенчмарк; абсолютную цифру стоит проверять на своём материале).
Для диктовки в реальном времени оптимальна turbo, а не large-v3. Turbo — официальная оптимизированная версия large-v3: декодер урезан с 32 слоёв до 4, за счёт чего она примерно в 8 раз быстрее, а точность падает всего на 1–2%. Для надиктовки фраз, где важна минимальная задержка, это почти всегда лучший компромисс.
INT8-квантизация вдвое снижает требования к VRAM. Через faster-whisper large-v3 укладывается не в ~10 ГБ, а примерно в ~5 ГБ, small — в ~1 ГБ вместо ~2. Это позволяет запускать качественные модели на бюджетных видеокартах с 6–8 ГБ. Если подбираете железо под локальный ИИ в целом, у нас есть отдельный разбор — как выбрать GPU и мини-ПК для локальных нейросетей.
Если же дискретной видеокарты нет вовсе, ориентир по скорости даёт whisper.cpp на CPU: на Ryzen 7 5700X модель small обрабатывает 60-минутное аудио примерно за 4 минуты 20 секунд, а large-v3 — около 38 минут. На Apple Silicon через Metal те же задачи ускоряются на 60–70% (small — ~1 мин 50 сек, large-v3 — ~12 мин 40 сек на M2 Pro). Для диктовки коротких фраз даже CPU справляется в реальном времени на моделях small/medium.
Как установить локальную диктовку: пошагово
Что понадобится: компьютер на macOS, Windows или Linux; 5–10 ГБ свободного места под модель; для GPU-ускорения — видеокарта NVIDIA (CUDA) или Apple Silicon. Ниже три пути — от самого простого к гибкому.
Вариант А. Готовое приложение (без терминала)
Самый простой путь, если вы не хотите трогать командную строку.
Для новичка на Mac — это самый беспроблемный способ получить локальную диктовку. Бесплатное приложение Fisper (fisper.app) делает ровно то, что Wispr Flow, но полностью офлайн: распознавание идёт на устройстве через Apple Neural Engine, аудио не пишется на диск, аккаунт и интернет не нужны. Внутри — те же модели Whisper в трёх размерах: Base (~150 МБ) для скорости, Small (~500 МБ) и Large-v3-turbo (~3 ГБ) для максимальной точности. Бесплатно навсегда, без подписок. Ограничение одно: только Mac на Apple Silicon (M1 и новее) с macOS 14 и выше — Intel-маки не поддерживаются.
Запуск Fisper за три шага:
- Установка. Скачайте DMG с fisper.app, перетащите Fisper в «Программы» и откройте из меню-бара.
- Разрешения. Выдайте доступ к микрофону и к «Универсальному доступу» (Accessibility) в Системных настройках — приложение подхватывает изменения сразу, без перезапуска.
- Диктовка. Скачайте модель прямо в приложении (для русского и украинского берите Large-v3-turbo ~3 ГБ), оставьте горячую клавишу по умолчанию (F5) или назначьте свою (есть ⌥Space, двойное нажатие правого ⌘ и другие). Дальше жмёте клавишу в любом приложении, говорите — текст печатается прямо у курсора в реальном времени. Русский и украинский поддерживаются, есть и автоопределение языка.
Это и есть «локальный Wispr Flow» для большинства Mac-пользователей: поставил, выдал два разрешения, скачал модель — и диктуешь без облака и без подписки.
Если же вы на Windows/Linux или хотите альтернативу:
- Whispering — бесплатное open-source приложение (Mac/Windows/Linux). Его обсуждали на Hacker News (591 балл, 152 комментария — высокий органический интерес). Скачайте релиз с GitHub, установите, выберите локальный бекенд (whisper.cpp), скачайте модель в самом приложении и назначьте горячую клавишу.
- Superwhisper (macOS, Windows, iOS) — платная, но умеет полностью офлайн на локальных моделях Whisper. Цена — $8.49/мес, около $84.99/год (на годовой тарифе «2 месяца бесплатно») или $249.99 разовой покупкой (lifetime), по данным spokenly.app и официального сайта на июнь 2026. Это прямой локальный аналог Wispr Flow: при покупке lifetime вы платите один раз, а обработка идёт на вашем устройстве.
После установки логика у всех одинаковая: задаёте hotkey, выбираете модель (для RU — medium или turbo), говорите — текст вставляется в активное поле.
Вариант Б. whisper.cpp через терминал (Mac/Linux, без GPU)
Лучший путь для машин без дискретной видеокарты. На Mac проще всего через Homebrew:
# установка
brew install whisper-cpp
# либо сборка из исходников (любая ОС)
git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp
sh ./models/download-ggml-model.sh medium
cmake -B build
cmake --build build -j --config Release
# распознать файл
./build/bin/whisper-cli -m models/ggml-medium.bin -l ru -f audio.wav
Флаг -l ru задаёт русский язык. На Apple Silicon сборка автоматически использует Metal — инференс пойдёт на GPU без дополнительных настроек. Для диктовки «в любое поле» поверх whisper.cpp ставится отдельная обёртка с горячей клавишей (например, проекты класса faster-whisper-dictation на GitHub).
Вариант В. faster-whisper на Python (Mac/Windows/Linux, с GPU)
Гибкий путь, когда нужна максимальная скорость и есть видеокарта NVIDIA:
pip install -U faster-whisper # ставьте свежую версию с PyPI
from faster_whisper import WhisperModel
# int8 вдвое снижает требования к VRAM
model = WhisperModel("large-v3", device="cuda", compute_type="int8")
segments, info = model.transcribe("audio.wav", language="ru")
for s in segments:
print(s.text)
compute_type="int8" включает квантизацию — именно она позволяет уложить large-v3 в ~5 ГБ VRAM. Для готовой диктовки с глобальным хоткеем используйте обёртку вроде faster-whisper-dictation (репозиторий bhargavchippada на GitHub) — она ловит нажатие клавиши, пишет с микрофона и вставляет результат.
Типичные ошибки установки: на Windows для faster-whisper нужны библиотеки cuDNN/CUDA нужной версии — если видите ошибку про DLL, переходите на device="cpu" либо доставьте CUDA Toolkit; на маках с малым объёмом памяти large-v3 может не влезть — берите turbo или medium.
Wispr Flow против локального Whisper: что выбрать
Теперь сведём всё в одну таблицу (оценки актуальны на 16.06.2026):Критерий Wispr Flow Локальный Whisper Обработка Только облако Полностью локально (офлайн) Приватность Аудио уходит на сервер; Privacy Mode = не хранят Ничего не покидает устройство Цена $144/год (Pro) $0 (модель и софт бесплатны) Точность RU/UA Высокая (официально не раскрыта) Высокая на medium/large-v3 ИИ-форматирование Да, из коробки Базовое; зависит от приложения Простота старта Очень простая От простой (GUI) до средней (терминал) Требования к железу Любой ПК + интернет Нужны RAM/VRAM под модель Работа без интернета Нет Да
Экономика за 3 года. Wispr Flow Pro — это $144 × 3 = $432. Локальный Whisper — $0 (модель под MIT, бекенды бесплатны), при условии, что подходящий компьютер у вас уже есть. Superwhisper как платный, но локальный компромисс — $249.99 один раз навсегда. Этого расчёта почти нет в русскоязычных обзорах, а он часто решающий.
Матрица решений — кому что:
- Пишете много, цените готовое удобство, данные не критичны → Wispr Flow Pro.
- Нужна диктовка без интернета или под NDA/медицину/юриспруденцию → локальный Whisper (medium/large-v3) или Superwhisper офлайн.
- Хотите бесплатно и не боитесь терминала → whisper.cpp или faster-whisper.
- Хотите локально, но без командной строки → на Mac (Apple Silicon) проще всего Fisper (бесплатно, на Apple Neural Engine); на любой ОС — Whispering (бесплатно) или Superwhisper (платно).
- Слабый ПК или Windows без видеокарты → whisper.cpp на CPU или Whispering в CPU-режиме, модель small/medium.
Риски и подводные камни
Честно о том, где каждый вариант ломается.
Wispr Flow: — Приватность по умолчанию. Аудио и, по ряду отчётов, скриншоты активного окна уходят в облако. Privacy Mode отключает хранение, но не отправку — проверьте настройки перед работой с чувствительными данными. — Стоимость на длинной дистанции. $432 за три года — ощутимо, если использовать каждый день годами. — Стабильность на Windows. Часть негативных отзывов на Trustpilot — про баги именно на Windows и про сложности с отменой подписки.
Локальный Whisper: — Требования к памяти и OOM. Если модель не влезает в VRAM, вы получите ошибку out-of-memory. Решение: брать модель поменьше (turbo вместо large-v3) или включать INT8-квантизацию. — Качество русского у мелких моделей. tiny и base на RU/UA дают много ошибок — не экономьте на размере, если язык не английский. — Сложность установки через терминал. Путь Б и В требуют базовых навыков командной строки; для новичков честнее начать с GUI-приложения. — Перегрев при долгих сессиях. Длинная транскрипция нагружает GPU/CPU — на ноутбуках следите за температурами. Если планируете много локального ИИ, под него стоит подбирать видеокарту осознанно — см. подборку GPU для нейросетей. — Безопасность загружаемых моделей. Скачивайте веса только с официальных репозиториев (Hugging Face openai/*, GitHub ggml-org) — не с случайных зеркал.
Баланс: облако выигрывает в удобстве «из коробки» и встроенном ИИ-форматировании, локалка — в приватности, цене и независимости от интернета. Идеального варианта нет, есть подходящий под вашу задачу.
FAQ
Можно ли установить Wispr Flow локально, чтобы он работал офлайн? Нет. Wispr Flow обрабатывает речь только в облаке — у него нет офлайн-режима ни на одном тарифе. Десктоп-приложение устанавливается на компьютер, но без интернета не работает. Если нужна именно локальная диктовка, ставьте решение на Whisper (whisper.cpp, faster-whisper) или платный, но офлайновый Superwhisper.
Privacy Mode в Wispr Flow делает обработку локальной? Нет. Privacy Mode отключает хранение ваших данных и их использование для обучения, но аудио всё равно отправляется на серверы для распознавания. Это режим «не хранить», а не «не отправлять».
Какая модель Whisper нужна для русского языка? Для рабочего качества на русском берите medium (~5 ГБ VRAM) или large-v3 (~10 ГБ, либо ~5 ГБ через INT8). Для диктовки в реальном времени удобнее turbo — она почти не уступает large-v3 в точности, но в ~8 раз быстрее. Мелкие tiny/base на русском ошибаются слишком часто.
Сколько стоит локальная диктовка на Whisper? Сама модель и бекенды (whisper.cpp, faster-whisper) бесплатны и открыты под лицензией MIT — платить не нужно. Единственные затраты — это железо, если его ещё нет, или разовая покупка удобного приложения вроде Superwhisper ($249.99 навсегда), если не хотите возиться с настройкой.
Запустится ли Whisper без видеокарты? Да. whisper.cpp работает на чистом CPU: модель small обрабатывает час аудио примерно за 4 минуты на современном процессоре, а короткие фразы для диктовки — практически в реальном времени. Для больших моделей и длинных записей видеокарта ускоряет процесс в разы, но для повседневной диктовки она не обязательна.
Whisper точнее, чем встроенная диктовка Windows или macOS? На русском и украинском обычно да, особенно модели medium и выше: Whisper лучше справляется с пунктуацией, акцентами и техническими терминами. Встроенная системная диктовка быстрее стартует и не требует настройки, но заметно уступает в качестве на неанглийских языках.




