Коротко. Якщо стисло: «whisper flow» — це два різні світи, які часто плутають. Є Wispr Flow — платний застосунок-диктовка з ШІ-форматуванням, у якого немає офлайн-режиму: ваш голос завжди йде на сервери компанії. І є локальна диктовка на OpenAI Whisper — безкоштовна та працює без інтернету, яку ви ставите на свій комп’ютер самостійно. Встановити «whisper flow локально» у прямому сенсі не можна: сам Wispr Flow офлайн не працює. Зате можна зібрати аналогічний за зручністю інструмент на Whisper, який не надсилає жодного байта у хмару.
- Що таке Wispr Flow і як він влаштований
- Тарифи Wispr Flow: скільки це коштує
- Головний нюанс: Privacy Mode — це не офлайн
- Wispr Flow: сильні та слабкі сторони
- Локальна диктовка на Whisper: як це працює
- Яку модель Whisper обрати під ваше залізо
- Як встановити локальну диктовку: покроково
- Wispr Flow проти локального Whisper: що обрати
- Ризики та підводні камені
- FAQ
Ця стаття закриває обидва запити. Спершу розбираємо Wispr Flow чесно — тарифи, можливості та підводні камені приватності. Потім показуємо, що потрібно для локальної диктовки на Whisper, яку модель обрати під ваше залізо і як усе встановити за 15–30 хвилин. Наприкінці — таблиця порівняння та матриця «кому що обрати». Дані про тарифи й версії актуальні на 16 червня 2026.
Що таке Wispr Flow і як він влаштований
Wispr Flow — застосунок для голосового введення: ви затискаєте гарячу клавішу, говорите, і розпізнаний текст вставляється у будь-яке активне поле — лист, месенджер, редактор коду, нотатку. Від вбудованої диктовки macOS чи Windows його відрізняє шар ШІ: він прибирає слова-паразити та затинання, розставляє пунктуацію, форматує списки і вміє виконувати команди редагування голосом.
Застосунок працює на Mac, Windows, iPhone та Android і заявляє підтримку 100+ мов, включно з українською та російською, з розпізнаванням перемикання між мовами всередині однієї фрази. Це сильна сторона для тих, хто диктує двома мовами одразу.
Ключовий архітектурний факт, на якому тримається вся стаття: Wispr Flow обробляє мовлення лише у хмарі. Десктоп-клієнт, який ви встановлюєте, — це лише захоплення звуку, гарячі клавіші та інтерфейс. Саме розпізнавання відбувається на серверах компанії. Офлайн-режиму застосунок не має — без інтернету він не працює. Це не здогадка, а пряме формулювання з офіційної сторінки приватності: «Transcription always happens in the cloud to provide the best speed and accuracy» (за даними wisprflow.ai/privacy на 16 червня 2026).
Тарифи Wispr Flow: скільки це коштує
У Wispr Flow три плани. Безкоштовний (Basic) дає спробувати, але жорстко лімітований за обсягом; основний робочий план — Pro.План Ціна (на 16.06.2026) Ліміт слів Для кого Basic (free) $0 2 000 слів/тиж на Mac/Windows; 1 000/тиж на iPhone; на Android тимчасово без ліміту Спробувати диктовку Pro $15/міс помісячно або $12/міс при оплаті за рік ($144/рік) Без ліміту Щоденна робота Enterprise За запитом Без ліміту Команди, SOC 2, ISO 27001
Кілька важливих деталей за цифрами. Ліміт безкоштовного плану — 2 000 слів на тиждень на десктопі. Це приблизно 8–10 коротких листів, тобто на повноцінну щоденну роботу його не вистачить — це саме демо-режим. Річна підписка Pro виходить у $144 на рік; помісячна — дорожча, $15 на місяць. Різні джерела називають річну то як «$12/міс», то як «$143.99/рік» — це одна й та сама сума, просто порахована по-різному.
Сертифікати безпеки (SOC 2 Type II, ISO 27001) доступні лише на плані Enterprise, а відповідність HIPAA — на всіх планах, але з підписанням окремої угоди (BAA). Для приватного користувача це означає: на тарифах Basic і Pro жодних enterprise-гарантій щодо обробки даних немає.
Головний нюанс: Privacy Mode — це не офлайн
Найчастіша плутанина навколо Wispr Flow — режим приватності. У налаштуваннях є Privacy Mode, і багато хто читає це як «тепер обробка йде локально / без хмари». Це не так, і різниця принципова.
Що робить Privacy Mode: при увімкненні компанія не зберігає ваші аудіо, транскрипти та правки і не використовує їх для навчання моделей (формулювання wisprflow.ai/privacy: дані «isn’t stored or used for model training»). Це про зберігання (zero data retention), а не про місце обробки.
Чого Privacy Mode НЕ робить: він не перетворює застосунок на офлайн-інструмент. Аудіо все одно йде на сервери — і при увімкненому Privacy Mode теж. Просто після розпізнавання воно не зберігається. Вмикається режим у Settings → Data & Privacy → Privacy Mode.
Чому це важливо на практиці — пройдемо ланцюжок «що → чому → коли не підходить». Якщо ви диктуєте звичайні листи й нотатки, хмарна обробка з Privacy Mode — розумний компроміс: зручно, швидко, дані не накопичуються. Але якщо ви працюєте під NDA, з медичними записами, юридичними документами чи комерційною таємницею, то сам факт надсилання аудіо на сторонній сервер може порушувати ваші зобов’язання — незалежно від того, чи зберігає компанія запис. Для таких сценаріїв потрібна справжня локальна обробка, і Wispr Flow її не дає на жодному тарифі. Тут і з’являється Whisper.
Wispr Flow: сильні та слабкі сторони
| Плюси | Мінуси |
|---|---|
| ШІ-форматування: чистить «еее», ставить пунктуацію, робить списки | Лише хмара, офлайн-режиму немає |
| 100+ мов, перемикання мов в одній фразі | Підписка $144/рік за повноцінну роботу |
| Кросплатформність: Mac, Windows, iOS, Android | Безкоштовний план — фактично демо (2 000 слів/тиж) |
| Command mode — редагування голосом | Помітне споживання ресурсів у фоні |
| Зручна установка, не потребує технічних навичок | Якість розпізнавання UA/RU офіційно не розкрита |
Окремо про суперечку зі скриншотами. У незалежних оглядах і вірусних тредах на Reddit задокументовано, що для «контекстної обізнаності» Wispr Flow періодично робить скриншоти активного вікна і надсилає їх у хмару. Джерело цієї інформації — зокрема огляд конкурента (а саме Voibe) із посиланням на треди Reddit, тому ставитися до неї варто критично, але ігнорувати теж не можна: для роботи з конфіденційними документами це додатковий канал витоку, який варто перевірити в налаштуваннях перед використанням.
Про рейтинги є характерне розходження: в iOS App Store у застосунку ~4.8 з 5 (близько 7,5 тис. оцінок), а на Trustpilot — 2.7 з 5. Це не суперечність, а різні аудиторії: App Store відображає масового мобільного користувача, Trustpilot збирає переважно скарги (білінг, Windows-баги, підтримка). Істина — посередині: продукт зручний, але до деталей підписки та стабільності на Windows є питання.
Споживання ресурсів: за користувацькими замірами на Reddit (MacBook Pro 2021) застосунок у простої тримає ~800 МБ RAM і ~8% CPU. Це неофіційні дані одного джерела, але вони збігаються із загальним відчуттям «застосунок помітний у фоні».
Локальна диктовка на Whisper: як це працює
Whisper — це відкрита модель розпізнавання мовлення від OpenAI, випущена під ліцензією MIT. MIT означає, що ви можете використовувати її як завгодно, зокрема комерційно, без обмежень і без оплати. Модель навчена на великому масиві різномовного аудіо (для базових версій — близько 680 тис. годин; large-v3 донавчена на ще більшому наборі слабко розмічених даних) і добре розуміє зокрема українську та російську.
Важливо розрізняти модель і спосіб її запуску (бекенд). Сама модель Whisper — це файл із вагами. Запускати її можна трьома основними способами:
- Оригінальний Whisper (Python-пакет від OpenAI) — еталон, але найповільніший і найненажерливіший за пам’яттю.
- whisper.cpp (ggml-org, стабільна версія v1.8.6, MIT) — порт на C/C++ від автора llama.cpp. Працює на чистому CPU з SIMD-оптимізацією та через Metal на Apple Silicon (на маках інференс цілком іде на GPU). Найкращий вибір, коли немає дискретної відеокарти.
- faster-whisper (SYSTRAN, на рушії CTranslate2) — приблизно у 4 рази швидший за оригінал при меншому споживанні пам’яті завдяки квантизації INT8. Найкращий вибір, коли важлива швидкість.
Усі три бекенди використовують одні й ті самі моделі Whisper — відрізняється лише рушій. Поверх будь-якого з них працюють готові застосунки-диктовки, які додають глобальну гарячу клавішу та вставлення тексту в активне поле, як у Wispr Flow, — тільки локально.
Логіка тут та сама, що й при запуску локальних мовних моделей: ви завантажуєте ваги, обираєте рушій під своє залізо і працюєте офлайн. Якщо ця тема цікавить вас ширше за диктовку, у нас є розбір, як запустити Llama на своєму комп’ютері — принципи вибору квантизації та розрахунку пам’яті там ті самі.
Окремо про українську мову. Whisper мультимовний і розпізнає українську тим самим набором моделей, що й російську, — окрему модель ставити не потрібно, достатньо вказати мову прапорцем (-l uk у whisper.cpp або language="uk" у faster-whisper). Якість українською співставна з російською і так само залежить від розміру моделі: tiny/base помиляються часто, medium та large-v3 дають робочий результат. Це перевага локального Whisper перед багатьма хмарними сервісами, які українську підтримують гірше за російську або не підтримують зовсім.
Яку модель Whisper обрати під ваше залізо
У Whisper кілька розмірів. Що більша модель, то точніше розпізнавання, але то більше потрібно пам’яті й то повільніша робота. Головна фірмова таблиця для локального запуску — модель проти вимог до заліза (дані про VRAM та параметри — з README репозиторію openai/whisper, підтверджені незалежним гідом localaimaster, перевірка 16.06.2026):Модель Параметри VRAM (FP16) Швидкість (vs large) Якість для української tiny 39M ~1 ГБ ~10x Низька, багато помилок base 74M ~1 ГБ ~7x Слабка small 244M ~2 ГБ ~4x Середня medium 769M ~5 ГБ ~2x Хороша large-v3 1.55B ~10 ГБ (INT8 ~5 ГБ) 1x Найкраща (WER ~4–5%) turbo 809M ~6 ГБ ~8x Майже як large-v3
Колонка «Швидкість» — відносна, за даними README openai/whisper (заміри на GPU A100): у скільки разів модель швидша за large. Це орієнтир, а не абсолют — на звичайному CPU розрив між розмірами менший, і реальні таймінги залежать від вашого заліза (практичні заміри — нижче, у розділі установки).
Кілька практичних висновків із таблиці:
Для української/російської беріть medium і вище. Дрібні моделі (tiny, base) на цих мовах дають багато помилок — вони годяться для англійської й тестів, але не для робочої диктовки UA/RU. За оцінками незалежних тестів і спільноти, large-v3 на чистому аудіо досягає WER близько 4–5% (це оцінка, не peer-reviewed бенчмарк; абсолютну цифру варто перевіряти на своєму матеріалі).
Для диктовки в реальному часі оптимальна turbo, а не large-v3. Turbo — офіційна оптимізована версія large-v3: декодер урізаний з 32 шарів до 4, завдяки чому вона приблизно у 8 разів швидша, а точність падає лише на 1–2%. Для надиктовування фраз, де важлива мінімальна затримка, це майже завжди найкращий компроміс.
INT8-квантизація вдвічі знижує вимоги до VRAM. Через faster-whisper large-v3 вкладається не в ~10 ГБ, а приблизно в ~5 ГБ, small — у ~1 ГБ замість ~2. Це дозволяє запускати якісні моделі на бюджетних відеокартах із 6–8 ГБ. Якщо підбираєте залізо під локальний ШІ загалом, у нас є окремий розбір — як вибрати GPU та міні-ПК для локальних нейромереж.
Якщо ж дискретної відеокарти немає зовсім, орієнтир за швидкістю дає whisper.cpp на CPU: на Ryzen 7 5700X модель small обробляє 60-хвилинне аудіо приблизно за 4 хвилини 20 секунд, а large-v3 — близько 38 хвилин. На Apple Silicon через Metal ті самі задачі прискорюються на 60–70% (small — ~1 хв 50 сек, large-v3 — ~12 хв 40 сек на M2 Pro). Для диктовки коротких фраз навіть CPU справляється в реальному часі на моделях small/medium.
Як встановити локальну диктовку: покроково
Що знадобиться: комп’ютер на macOS, Windows або Linux; 5–10 ГБ вільного місця під модель; для GPU-прискорення — відеокарта NVIDIA (CUDA) або Apple Silicon. Нижче три шляхи — від найпростішого до гнучкого.
Варіант А. Готовий застосунок (без термінала)
Найпростіший шлях, якщо ви не хочете чіпати командний рядок.
Для новачка на Mac — це найбезпроблемніший спосіб отримати локальну диктовку. Безкоштовний застосунок Fisper (fisper.app) робить рівно те, що Wispr Flow, але повністю офлайн: розпізнавання йде на пристрої через Apple Neural Engine, аудіо не пишеться на диск, акаунт та інтернет не потрібні. Усередині — ті самі моделі Whisper у трьох розмірах: Base (~150 МБ) для швидкості, Small (~500 МБ) та Large-v3-turbo (~3 ГБ) для максимальної точності. Безкоштовно назавжди, без підписок. Обмеження одне: лише Mac на Apple Silicon (M1 і новіше) з macOS 14 і вище — Intel-маки не підтримуються.
Запуск Fisper за три кроки:
- Установка. Завантажте DMG з fisper.app, перетягніть Fisper у «Програми» і відкрийте з меню-бара.
- Дозволи. Надайте доступ до мікрофона та до «Універсального доступу» (Accessibility) у Системних налаштуваннях — застосунок підхоплює зміни одразу, без перезапуску.
- Диктовка. Завантажте модель прямо в застосунку (для української та російської беріть Large-v3-turbo ~3 ГБ), залиште гарячу клавішу за замовчуванням (F5) або призначте свою (є ⌥Space, подвійне натискання правого ⌘ та інші). Далі тиснете клавішу в будь-якому застосунку, говорите — текст друкується прямо біля курсора в реальному часі. Українська та російська підтримуються, є й автовизначення мови.
Це і є «локальний Wispr Flow» для більшості Mac-користувачів: поставив, надав два дозволи, завантажив модель — і диктуєш без хмари і без підписки.
Якщо ж ви на Windows/Linux або хочете альтернативу:
- Whispering — безкоштовний open-source застосунок (Mac/Windows/Linux). Його обговорювали на Hacker News (591 бал, 152 коментарі — високий органічний інтерес). Завантажте реліз із GitHub, встановіть, оберіть локальний бекенд (whisper.cpp), завантажте модель у самому застосунку і призначте гарячу клавішу.
- Superwhisper (macOS, Windows, iOS) — платний, але вміє повністю офлайн на локальних моделях Whisper. Ціна — $8.49/міс, близько $84.99/рік (на річному тарифі «2 місяці безкоштовно») або $249.99 разовою покупкою (lifetime), за даними spokenly.app та офіційного сайту на червень 2026. Це прямий локальний аналог Wispr Flow: при покупці lifetime ви платите один раз, а обробка йде на вашому пристрої.
Після установки логіка у всіх однакова: задаєте hotkey, обираєте модель (для UA — medium або turbo), говорите — текст вставляється в активне поле.
Варіант Б. whisper.cpp через термінал (Mac/Linux, без GPU)
Найкращий шлях для машин без дискретної відеокарти. На Mac найпростіше через Homebrew:
# установка
brew install whisper-cpp
# або збірка з вихідників (будь-яка ОС)
git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp
sh ./models/download-ggml-model.sh medium
cmake -B build
cmake --build build -j --config Release
# розпізнати файл
./build/bin/whisper-cli -m models/ggml-medium.bin -l uk -f audio.wav
Прапорець -l uk задає українську мову. На Apple Silicon збірка автоматично використовує Metal — інференс піде на GPU без додаткових налаштувань. Для диктовки «у будь-яке поле» поверх whisper.cpp ставиться окрема обгортка з гарячою клавішею (наприклад, проєкти класу faster-whisper-dictation на GitHub).
Варіант В. faster-whisper на Python (Mac/Windows/Linux, з GPU)
Гнучкий шлях, коли потрібна максимальна швидкість і є відеокарта NVIDIA:
pip install -U faster-whisper # ставте свіжу версію з PyPI
from faster_whisper import WhisperModel
# int8 вдвічі знижує вимоги до VRAM
model = WhisperModel("large-v3", device="cuda", compute_type="int8")
segments, info = model.transcribe("audio.wav", language="uk")
for s in segments:
print(s.text)
compute_type="int8" вмикає квантизацію — саме вона дозволяє вкласти large-v3 у ~5 ГБ VRAM. Для готової диктовки з глобальним хоткеєм використовуйте обгортку на кшталт faster-whisper-dictation (репозиторій bhargavchippada на GitHub) — вона ловить натискання клавіші, пише з мікрофона і вставляє результат.
Типові помилки установки: на Windows для faster-whisper потрібні бібліотеки cuDNN/CUDA потрібної версії — якщо бачите помилку про DLL, переходьте на device="cpu" або доставте CUDA Toolkit; на маках із малим обсягом пам’яті large-v3 може не влізти — беріть turbo або medium.
Wispr Flow проти локального Whisper: що обрати
Тепер зведемо все в одну таблицю (оцінки актуальні на 16.06.2026):Критерій Wispr Flow Локальний Whisper Обробка Лише хмара Повністю локально (офлайн) Приватність Аудіо йде на сервер; Privacy Mode = не зберігають Нічого не покидає пристрій Ціна $144/рік (Pro) $0 (модель і софт безкоштовні) Точність UA/RU Висока (офіційно не розкрита) Висока на medium/large-v3 ШІ-форматування Так, з коробки Базове; залежить від застосунку Простота старту Дуже проста Від простої (GUI) до середньої (термінал) Вимоги до заліза Будь-який ПК + інтернет Потрібні RAM/VRAM під модель Робота без інтернету Ні Так
Економіка за 3 роки. Wispr Flow Pro — це $144 × 3 = $432. Локальний Whisper — $0 (модель під MIT, бекенди безкоштовні), за умови, що відповідний комп’ютер у вас уже є. Superwhisper як платний, але локальний компроміс — $249.99 один раз назавжди. Цього розрахунку майже немає в україномовних оглядах, а він часто вирішальний.
Матриця рішень — кому що:
- Пишете багато, цінуєте готову зручність, дані не критичні → Wispr Flow Pro.
- Потрібна диктовка без інтернету або під NDA/медицину/юриспруденцію → локальний Whisper (medium/large-v3) або Superwhisper офлайн.
- Хочете безкоштовно і не боїтеся термінала → whisper.cpp або faster-whisper.
- Хочете локально, але без командного рядка → на Mac (Apple Silicon) найпростіше Fisper (безкоштовно, на Apple Neural Engine); на будь-якій ОС — Whispering (безкоштовно) або Superwhisper (платно).
- Слабкий ПК або Windows без відеокарти → whisper.cpp на CPU або Whispering у CPU-режимі, модель small/medium.
Ризики та підводні камені
Чесно про те, де кожен варіант ламається.
Wispr Flow: – Приватність за замовчуванням. Аудіо і, за низкою звітів, скриншоти активного вікна йдуть у хмару. Privacy Mode вимикає зберігання, але не надсилання — перевірте налаштування перед роботою з чутливими даними. – Вартість на довгій дистанції. $432 за три роки — відчутно, якщо використовувати щодня роками. – Стабільність на Windows. Частина негативних відгуків на Trustpilot — про баги саме на Windows і про складнощі зі скасуванням підписки.
Локальний Whisper: – Вимоги до пам’яті та OOM. Якщо модель не влазить у VRAM, ви отримаєте помилку out-of-memory. Рішення: брати модель меншу (turbo замість large-v3) або вмикати INT8-квантизацію. – Якість української у дрібних моделей. tiny і base на UA/RU дають багато помилок — не економте на розмірі, якщо мова не англійська. – Складність установки через термінал. Шлях Б і В потребують базових навичок командного рядка; для новачків чесніше почати з GUI-застосунку. – Перегрів при довгих сесіях. Довга транскрипція навантажує GPU/CPU — на ноутбуках стежте за температурами. Якщо плануєте багато локального ШІ, під нього варто підбирати відеокарту усвідомлено — див. добірку GPU для нейромереж. – Безпека завантажуваних моделей. Завантажуйте ваги лише з офіційних репозиторіїв (Hugging Face openai/*, GitHub ggml-org) — не з випадкових дзеркал.
Баланс: хмара виграє у зручності «з коробки» та вбудованому ШІ-форматуванні, локалка — у приватності, ціні та незалежності від інтернету. Ідеального варіанта немає, є відповідний під вашу задачу.
FAQ
Чи можна встановити Wispr Flow локально, щоб він працював офлайн? Ні. Wispr Flow обробляє мовлення лише у хмарі — у нього немає офлайн-режиму на жодному тарифі. Десктоп-застосунок встановлюється на комп’ютер, але без інтернету не працює. Якщо потрібна саме локальна диктовка, ставте рішення на Whisper (whisper.cpp, faster-whisper) або платний, але офлайновий Superwhisper.
Чи робить Privacy Mode у Wispr Flow обробку локальною? Ні. Privacy Mode вимикає зберігання ваших даних та їх використання для навчання, але аудіо все одно надсилається на сервери для розпізнавання. Це режим «не зберігати», а не «не надсилати».
Яка модель Whisper потрібна для української мови? Для робочої якості українською беріть medium (~5 ГБ VRAM) або large-v3 (~10 ГБ, або ~5 ГБ через INT8). Для диктовки в реальному часі зручніша turbo — вона майже не поступається large-v3 у точності, але у ~8 разів швидша. Дрібні tiny/base українською помиляються занадто часто.
Скільки коштує локальна диктовка на Whisper? Сама модель і бекенди (whisper.cpp, faster-whisper) безкоштовні та відкриті під ліцензією MIT — платити не потрібно. Єдині витрати — це залізо, якщо його ще немає, або разова покупка зручного застосунку на кшталт Superwhisper ($249.99 назавжди), якщо не хочете морочитися з налаштуванням.
Чи запуститься Whisper без відеокарти? Так. whisper.cpp працює на чистому CPU: модель small обробляє годину аудіо приблизно за 4 хвилини на сучасному процесорі, а короткі фрази для диктовки — практично в реальному часі. Для великих моделей і довгих записів відеокарта прискорює процес у рази, але для повсякденної диктовки вона не обов’язкова.
Чи точніший Whisper за вбудовану диктовку Windows або macOS? Українською та російською зазвичай так, особливо моделі medium і вище: Whisper краще справляється з пунктуацією, акцентами та технічними термінами. Вбудована системна диктовка швидше стартує і не потребує налаштування, але помітно поступається в якості на неанглійських мовах.




