Wispr Flow чи свій Whisper: хмарна та офлайн-диктовка

Коротко. Якщо стисло: «whisper flow» — це два різні світи, які часто плутають. Є Wispr Flow — платний застосунок-диктовка з ШІ-форматуванням, у якого немає офлайн-режиму: ваш голос завжди йде на сервери компанії. І є локальна диктовка на OpenAI Whisper — безкоштовна та працює без інтернету, яку ви ставите на свій комп’ютер самостійно. Встановити «whisper flow локально» у прямому сенсі не можна: сам Wispr Flow офлайн не працює. Зате можна зібрати аналогічний за зручністю інструмент на Whisper, який не надсилає жодного байта у хмару.

Ця стаття закриває обидва запити. Спершу розбираємо Wispr Flow чесно — тарифи, можливості та підводні камені приватності. Потім показуємо, що потрібно для локальної диктовки на Whisper, яку модель обрати під ваше залізо і як усе встановити за 15–30 хвилин. Наприкінці — таблиця порівняння та матриця «кому що обрати». Дані про тарифи й версії актуальні на 16 червня 2026.

Що таке Wispr Flow і як він влаштований

Wispr Flow — застосунок для голосового введення: ви затискаєте гарячу клавішу, говорите, і розпізнаний текст вставляється у будь-яке активне поле — лист, месенджер, редактор коду, нотатку. Від вбудованої диктовки macOS чи Windows його відрізняє шар ШІ: він прибирає слова-паразити та затинання, розставляє пунктуацію, форматує списки і вміє виконувати команди редагування голосом.

Застосунок працює на Mac, Windows, iPhone та Android і заявляє підтримку 100+ мов, включно з українською та російською, з розпізнаванням перемикання між мовами всередині однієї фрази. Це сильна сторона для тих, хто диктує двома мовами одразу.

Ключовий архітектурний факт, на якому тримається вся стаття: Wispr Flow обробляє мовлення лише у хмарі. Десктоп-клієнт, який ви встановлюєте, — це лише захоплення звуку, гарячі клавіші та інтерфейс. Саме розпізнавання відбувається на серверах компанії. Офлайн-режиму застосунок не має — без інтернету він не працює. Це не здогадка, а пряме формулювання з офіційної сторінки приватності: «Transcription always happens in the cloud to provide the best speed and accuracy» (за даними wisprflow.ai/privacy на 16 червня 2026).

Тарифи Wispr Flow: скільки це коштує

У Wispr Flow три плани. Безкоштовний (Basic) дає спробувати, але жорстко лімітований за обсягом; основний робочий план — Pro.

ПланЦіна (на 16.06.2026)Ліміт слівДля кого
Basic (free)$02 000 слів/тиж на Mac/Windows; 1 000/тиж на iPhone; на Android тимчасово без лімітуСпробувати диктовку
Pro$15/міс помісячно або $12/міс при оплаті за рік ($144/рік)Без лімітуЩоденна робота
EnterpriseЗа запитомБез лімітуКоманди, SOC 2, ISO 27001

Кілька важливих деталей за цифрами. Ліміт безкоштовного плану — 2 000 слів на тиждень на десктопі. Це приблизно 8–10 коротких листів, тобто на повноцінну щоденну роботу його не вистачить — це саме демо-режим. Річна підписка Pro виходить у $144 на рік; помісячна — дорожча, $15 на місяць. Різні джерела називають річну то як «$12/міс», то як «$143.99/рік» — це одна й та сама сума, просто порахована по-різному.

Сертифікати безпеки (SOC 2 Type II, ISO 27001) доступні лише на плані Enterprise, а відповідність HIPAA — на всіх планах, але з підписанням окремої угоди (BAA). Для приватного користувача це означає: на тарифах Basic і Pro жодних enterprise-гарантій щодо обробки даних немає.

Головний нюанс: Privacy Mode — це не офлайн

Найчастіша плутанина навколо Wispr Flow — режим приватності. У налаштуваннях є Privacy Mode, і багато хто читає це як «тепер обробка йде локально / без хмари». Це не так, і різниця принципова.

Що робить Privacy Mode: при увімкненні компанія не зберігає ваші аудіо, транскрипти та правки і не використовує їх для навчання моделей (формулювання wisprflow.ai/privacy: дані «isn’t stored or used for model training»). Це про зберігання (zero data retention), а не про місце обробки.

Чого Privacy Mode НЕ робить: він не перетворює застосунок на офлайн-інструмент. Аудіо все одно йде на сервери — і при увімкненому Privacy Mode теж. Просто після розпізнавання воно не зберігається. Вмикається режим у Settings → Data & Privacy → Privacy Mode.

Чому це важливо на практиці — пройдемо ланцюжок «що → чому → коли не підходить». Якщо ви диктуєте звичайні листи й нотатки, хмарна обробка з Privacy Mode — розумний компроміс: зручно, швидко, дані не накопичуються. Але якщо ви працюєте під NDA, з медичними записами, юридичними документами чи комерційною таємницею, то сам факт надсилання аудіо на сторонній сервер може порушувати ваші зобов’язання — незалежно від того, чи зберігає компанія запис. Для таких сценаріїв потрібна справжня локальна обробка, і Wispr Flow її не дає на жодному тарифі. Тут і з’являється Whisper.

Wispr Flow: сильні та слабкі сторони

ПлюсиМінуси
ШІ-форматування: чистить «еее», ставить пунктуацію, робить спискиЛише хмара, офлайн-режиму немає
100+ мов, перемикання мов в одній фразіПідписка $144/рік за повноцінну роботу
Кросплатформність: Mac, Windows, iOS, AndroidБезкоштовний план — фактично демо (2 000 слів/тиж)
Command mode — редагування голосомПомітне споживання ресурсів у фоні
Зручна установка, не потребує технічних навичокЯкість розпізнавання UA/RU офіційно не розкрита

Окремо про суперечку зі скриншотами. У незалежних оглядах і вірусних тредах на Reddit задокументовано, що для «контекстної обізнаності» Wispr Flow періодично робить скриншоти активного вікна і надсилає їх у хмару. Джерело цієї інформації — зокрема огляд конкурента (а саме Voibe) із посиланням на треди Reddit, тому ставитися до неї варто критично, але ігнорувати теж не можна: для роботи з конфіденційними документами це додатковий канал витоку, який варто перевірити в налаштуваннях перед використанням.

Про рейтинги є характерне розходження: в iOS App Store у застосунку ~4.8 з 5 (близько 7,5 тис. оцінок), а на Trustpilot — 2.7 з 5. Це не суперечність, а різні аудиторії: App Store відображає масового мобільного користувача, Trustpilot збирає переважно скарги (білінг, Windows-баги, підтримка). Істина — посередині: продукт зручний, але до деталей підписки та стабільності на Windows є питання.

Споживання ресурсів: за користувацькими замірами на Reddit (MacBook Pro 2021) застосунок у простої тримає ~800 МБ RAM і ~8% CPU. Це неофіційні дані одного джерела, але вони збігаються із загальним відчуттям «застосунок помітний у фоні».

Локальна диктовка на Whisper: як це працює

Whisper — це відкрита модель розпізнавання мовлення від OpenAI, випущена під ліцензією MIT. MIT означає, що ви можете використовувати її як завгодно, зокрема комерційно, без обмежень і без оплати. Модель навчена на великому масиві різномовного аудіо (для базових версій — близько 680 тис. годин; large-v3 донавчена на ще більшому наборі слабко розмічених даних) і добре розуміє зокрема українську та російську.

Важливо розрізняти модель і спосіб її запуску (бекенд). Сама модель Whisper — це файл із вагами. Запускати її можна трьома основними способами:

  • Оригінальний Whisper (Python-пакет від OpenAI) — еталон, але найповільніший і найненажерливіший за пам’яттю.
  • whisper.cpp (ggml-org, стабільна версія v1.8.6, MIT) — порт на C/C++ від автора llama.cpp. Працює на чистому CPU з SIMD-оптимізацією та через Metal на Apple Silicon (на маках інференс цілком іде на GPU). Найкращий вибір, коли немає дискретної відеокарти.
  • faster-whisper (SYSTRAN, на рушії CTranslate2) — приблизно у 4 рази швидший за оригінал при меншому споживанні пам’яті завдяки квантизації INT8. Найкращий вибір, коли важлива швидкість.

Усі три бекенди використовують одні й ті самі моделі Whisper — відрізняється лише рушій. Поверх будь-якого з них працюють готові застосунки-диктовки, які додають глобальну гарячу клавішу та вставлення тексту в активне поле, як у Wispr Flow, — тільки локально.

Логіка тут та сама, що й при запуску локальних мовних моделей: ви завантажуєте ваги, обираєте рушій під своє залізо і працюєте офлайн. Якщо ця тема цікавить вас ширше за диктовку, у нас є розбір, як запустити Llama на своєму комп’ютері — принципи вибору квантизації та розрахунку пам’яті там ті самі.

Окремо про українську мову. Whisper мультимовний і розпізнає українську тим самим набором моделей, що й російську, — окрему модель ставити не потрібно, достатньо вказати мову прапорцем (-l uk у whisper.cpp або language="uk" у faster-whisper). Якість українською співставна з російською і так само залежить від розміру моделі: tiny/base помиляються часто, medium та large-v3 дають робочий результат. Це перевага локального Whisper перед багатьма хмарними сервісами, які українську підтримують гірше за російську або не підтримують зовсім.

Яку модель Whisper обрати під ваше залізо

У Whisper кілька розмірів. Що більша модель, то точніше розпізнавання, але то більше потрібно пам’яті й то повільніша робота. Головна фірмова таблиця для локального запуску — модель проти вимог до заліза (дані про VRAM та параметри — з README репозиторію openai/whisper, підтверджені незалежним гідом localaimaster, перевірка 16.06.2026):

МодельПараметриVRAM (FP16)Швидкість (vs large)Якість для української
tiny39M~1 ГБ~10xНизька, багато помилок
base74M~1 ГБ~7xСлабка
small244M~2 ГБ~4xСередня
medium769M~5 ГБ~2xХороша
large-v31.55B~10 ГБ (INT8 ~5 ГБ)1xНайкраща (WER ~4–5%)
turbo809M~6 ГБ~8xМайже як large-v3

Колонка «Швидкість» — відносна, за даними README openai/whisper (заміри на GPU A100): у скільки разів модель швидша за large. Це орієнтир, а не абсолют — на звичайному CPU розрив між розмірами менший, і реальні таймінги залежать від вашого заліза (практичні заміри — нижче, у розділі установки).

Кілька практичних висновків із таблиці:

Для української/російської беріть medium і вище. Дрібні моделі (tiny, base) на цих мовах дають багато помилок — вони годяться для англійської й тестів, але не для робочої диктовки UA/RU. За оцінками незалежних тестів і спільноти, large-v3 на чистому аудіо досягає WER близько 4–5% (це оцінка, не peer-reviewed бенчмарк; абсолютну цифру варто перевіряти на своєму матеріалі).

Для диктовки в реальному часі оптимальна turbo, а не large-v3. Turbo — офіційна оптимізована версія large-v3: декодер урізаний з 32 шарів до 4, завдяки чому вона приблизно у 8 разів швидша, а точність падає лише на 1–2%. Для надиктовування фраз, де важлива мінімальна затримка, це майже завжди найкращий компроміс.

INT8-квантизація вдвічі знижує вимоги до VRAM. Через faster-whisper large-v3 вкладається не в ~10 ГБ, а приблизно в ~5 ГБ, small — у ~1 ГБ замість ~2. Це дозволяє запускати якісні моделі на бюджетних відеокартах із 6–8 ГБ. Якщо підбираєте залізо під локальний ШІ загалом, у нас є окремий розбір — як вибрати GPU та міні-ПК для локальних нейромереж.

Якщо ж дискретної відеокарти немає зовсім, орієнтир за швидкістю дає whisper.cpp на CPU: на Ryzen 7 5700X модель small обробляє 60-хвилинне аудіо приблизно за 4 хвилини 20 секунд, а large-v3 — близько 38 хвилин. На Apple Silicon через Metal ті самі задачі прискорюються на 60–70% (small — ~1 хв 50 сек, large-v3 — ~12 хв 40 сек на M2 Pro). Для диктовки коротких фраз навіть CPU справляється в реальному часі на моделях small/medium.

Як встановити локальну диктовку: покроково

Що знадобиться: комп’ютер на macOS, Windows або Linux; 5–10 ГБ вільного місця під модель; для GPU-прискорення — відеокарта NVIDIA (CUDA) або Apple Silicon. Нижче три шляхи — від найпростішого до гнучкого.

Варіант А. Готовий застосунок (без термінала)

Найпростіший шлях, якщо ви не хочете чіпати командний рядок.

Для новачка на Mac — це найбезпроблемніший спосіб отримати локальну диктовку. Безкоштовний застосунок Fisper (fisper.app) робить рівно те, що Wispr Flow, але повністю офлайн: розпізнавання йде на пристрої через Apple Neural Engine, аудіо не пишеться на диск, акаунт та інтернет не потрібні. Усередині — ті самі моделі Whisper у трьох розмірах: Base (~150 МБ) для швидкості, Small (~500 МБ) та Large-v3-turbo (~3 ГБ) для максимальної точності. Безкоштовно назавжди, без підписок. Обмеження одне: лише Mac на Apple Silicon (M1 і новіше) з macOS 14 і вище — Intel-маки не підтримуються.

Запуск Fisper за три кроки:

  1. Установка. Завантажте DMG з fisper.app, перетягніть Fisper у «Програми» і відкрийте з меню-бара.
  2. Дозволи. Надайте доступ до мікрофона та до «Універсального доступу» (Accessibility) у Системних налаштуваннях — застосунок підхоплює зміни одразу, без перезапуску.
  3. Диктовка. Завантажте модель прямо в застосунку (для української та російської беріть Large-v3-turbo ~3 ГБ), залиште гарячу клавішу за замовчуванням (F5) або призначте свою (є ⌥Space, подвійне натискання правого ⌘ та інші). Далі тиснете клавішу в будь-якому застосунку, говорите — текст друкується прямо біля курсора в реальному часі. Українська та російська підтримуються, є й автовизначення мови.

Це і є «локальний Wispr Flow» для більшості Mac-користувачів: поставив, надав два дозволи, завантажив модель — і диктуєш без хмари і без підписки.

Якщо ж ви на Windows/Linux або хочете альтернативу:

  1. Whispering — безкоштовний open-source застосунок (Mac/Windows/Linux). Його обговорювали на Hacker News (591 бал, 152 коментарі — високий органічний інтерес). Завантажте реліз із GitHub, встановіть, оберіть локальний бекенд (whisper.cpp), завантажте модель у самому застосунку і призначте гарячу клавішу.
  2. Superwhisper (macOS, Windows, iOS) — платний, але вміє повністю офлайн на локальних моделях Whisper. Ціна — $8.49/міс, близько $84.99/рік (на річному тарифі «2 місяці безкоштовно») або $249.99 разовою покупкою (lifetime), за даними spokenly.app та офіційного сайту на червень 2026. Це прямий локальний аналог Wispr Flow: при покупці lifetime ви платите один раз, а обробка йде на вашому пристрої.

Після установки логіка у всіх однакова: задаєте hotkey, обираєте модель (для UA — medium або turbo), говорите — текст вставляється в активне поле.

Варіант Б. whisper.cpp через термінал (Mac/Linux, без GPU)

Найкращий шлях для машин без дискретної відеокарти. На Mac найпростіше через Homebrew:

# установка
brew install whisper-cpp

# або збірка з вихідників (будь-яка ОС)
git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp
sh ./models/download-ggml-model.sh medium
cmake -B build
cmake --build build -j --config Release

# розпізнати файл
./build/bin/whisper-cli -m models/ggml-medium.bin -l uk -f audio.wav

Прапорець -l uk задає українську мову. На Apple Silicon збірка автоматично використовує Metal — інференс піде на GPU без додаткових налаштувань. Для диктовки «у будь-яке поле» поверх whisper.cpp ставиться окрема обгортка з гарячою клавішею (наприклад, проєкти класу faster-whisper-dictation на GitHub).

Варіант В. faster-whisper на Python (Mac/Windows/Linux, з GPU)

Гнучкий шлях, коли потрібна максимальна швидкість і є відеокарта NVIDIA:

pip install -U faster-whisper   # ставте свіжу версію з PyPI
from faster_whisper import WhisperModel

# int8 вдвічі знижує вимоги до VRAM
model = WhisperModel("large-v3", device="cuda", compute_type="int8")
segments, info = model.transcribe("audio.wav", language="uk")
for s in segments:
    print(s.text)

compute_type="int8" вмикає квантизацію — саме вона дозволяє вкласти large-v3 у ~5 ГБ VRAM. Для готової диктовки з глобальним хоткеєм використовуйте обгортку на кшталт faster-whisper-dictation (репозиторій bhargavchippada на GitHub) — вона ловить натискання клавіші, пише з мікрофона і вставляє результат.

Типові помилки установки: на Windows для faster-whisper потрібні бібліотеки cuDNN/CUDA потрібної версії — якщо бачите помилку про DLL, переходьте на device="cpu" або доставте CUDA Toolkit; на маках із малим обсягом пам’яті large-v3 може не влізти — беріть turbo або medium.

Wispr Flow проти локального Whisper: що обрати

Тепер зведемо все в одну таблицю (оцінки актуальні на 16.06.2026):

КритерійWispr FlowЛокальний Whisper
ОбробкаЛише хмараПовністю локально (офлайн)
ПриватністьАудіо йде на сервер; Privacy Mode = не зберігаютьНічого не покидає пристрій
Ціна$144/рік (Pro)$0 (модель і софт безкоштовні)
Точність UA/RUВисока (офіційно не розкрита)Висока на medium/large-v3
ШІ-форматуванняТак, з коробкиБазове; залежить від застосунку
Простота стартуДуже простаВід простої (GUI) до середньої (термінал)
Вимоги до залізаБудь-який ПК + інтернетПотрібні RAM/VRAM під модель
Робота без інтернетуНіТак

Економіка за 3 роки. Wispr Flow Pro — це $144 × 3 = $432. Локальний Whisper — $0 (модель під MIT, бекенди безкоштовні), за умови, що відповідний комп’ютер у вас уже є. Superwhisper як платний, але локальний компроміс — $249.99 один раз назавжди. Цього розрахунку майже немає в україномовних оглядах, а він часто вирішальний.

Матриця рішень — кому що:

  • Пишете багато, цінуєте готову зручність, дані не критичні → Wispr Flow Pro.
  • Потрібна диктовка без інтернету або під NDA/медицину/юриспруденцію → локальний Whisper (medium/large-v3) або Superwhisper офлайн.
  • Хочете безкоштовно і не боїтеся термінала → whisper.cpp або faster-whisper.
  • Хочете локально, але без командного рядка → на Mac (Apple Silicon) найпростіше Fisper (безкоштовно, на Apple Neural Engine); на будь-якій ОС — Whispering (безкоштовно) або Superwhisper (платно).
  • Слабкий ПК або Windows без відеокарти → whisper.cpp на CPU або Whispering у CPU-режимі, модель small/medium.

Ризики та підводні камені

Чесно про те, де кожен варіант ламається.

Wispr Flow:Приватність за замовчуванням. Аудіо і, за низкою звітів, скриншоти активного вікна йдуть у хмару. Privacy Mode вимикає зберігання, але не надсилання — перевірте налаштування перед роботою з чутливими даними. – Вартість на довгій дистанції. $432 за три роки — відчутно, якщо використовувати щодня роками. – Стабільність на Windows. Частина негативних відгуків на Trustpilot — про баги саме на Windows і про складнощі зі скасуванням підписки.

Локальний Whisper:Вимоги до пам’яті та OOM. Якщо модель не влазить у VRAM, ви отримаєте помилку out-of-memory. Рішення: брати модель меншу (turbo замість large-v3) або вмикати INT8-квантизацію. – Якість української у дрібних моделей. tiny і base на UA/RU дають багато помилок — не економте на розмірі, якщо мова не англійська. – Складність установки через термінал. Шлях Б і В потребують базових навичок командного рядка; для новачків чесніше почати з GUI-застосунку. – Перегрів при довгих сесіях. Довга транскрипція навантажує GPU/CPU — на ноутбуках стежте за температурами. Якщо плануєте багато локального ШІ, під нього варто підбирати відеокарту усвідомлено — див. добірку GPU для нейромереж. – Безпека завантажуваних моделей. Завантажуйте ваги лише з офіційних репозиторіїв (Hugging Face openai/*, GitHub ggml-org) — не з випадкових дзеркал.

Баланс: хмара виграє у зручності «з коробки» та вбудованому ШІ-форматуванні, локалка — у приватності, ціні та незалежності від інтернету. Ідеального варіанта немає, є відповідний під вашу задачу.

FAQ

Чи можна встановити Wispr Flow локально, щоб він працював офлайн? Ні. Wispr Flow обробляє мовлення лише у хмарі — у нього немає офлайн-режиму на жодному тарифі. Десктоп-застосунок встановлюється на комп’ютер, але без інтернету не працює. Якщо потрібна саме локальна диктовка, ставте рішення на Whisper (whisper.cpp, faster-whisper) або платний, але офлайновий Superwhisper.

Чи робить Privacy Mode у Wispr Flow обробку локальною? Ні. Privacy Mode вимикає зберігання ваших даних та їх використання для навчання, але аудіо все одно надсилається на сервери для розпізнавання. Це режим «не зберігати», а не «не надсилати».

Яка модель Whisper потрібна для української мови? Для робочої якості українською беріть medium (~5 ГБ VRAM) або large-v3 (~10 ГБ, або ~5 ГБ через INT8). Для диктовки в реальному часі зручніша turbo — вона майже не поступається large-v3 у точності, але у ~8 разів швидша. Дрібні tiny/base українською помиляються занадто часто.

Скільки коштує локальна диктовка на Whisper? Сама модель і бекенди (whisper.cpp, faster-whisper) безкоштовні та відкриті під ліцензією MIT — платити не потрібно. Єдині витрати — це залізо, якщо його ще немає, або разова покупка зручного застосунку на кшталт Superwhisper ($249.99 назавжди), якщо не хочете морочитися з налаштуванням.

Чи запуститься Whisper без відеокарти? Так. whisper.cpp працює на чистому CPU: модель small обробляє годину аудіо приблизно за 4 хвилини на сучасному процесорі, а короткі фрази для диктовки — практично в реальному часі. Для великих моделей і довгих записів відеокарта прискорює процес у рази, але для повсякденної диктовки вона не обов’язкова.

Чи точніший Whisper за вбудовану диктовку Windows або macOS? Українською та російською зазвичай так, особливо моделі medium і вище: Whisper краще справляється з пунктуацією, акцентами та технічними термінами. Вбудована системна диктовка швидше стартує і не потребує налаштування, але помітно поступається в якості на неанглійських мовах.

Поділитися
Зв'язатися:
Крипто- та data-аналітик, інженер-програміст (факультет комп'ютерних наук ХНУРЕ). В IT з 2008 року: адміністрував корпоративний моніторинг у «Vodafone Україна», сім років розробляв і просував веб-проєкти, п'ять років керував маркетингом на метриках — конверсія, CTR, ROI, LTV.Криптовалютними ринками займаюся з 2021 року: ончейн-метрики, токеноміка, макроекономічні індикатори. Розробив власну data-driven модель аналізу ринку на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математична статистика та EDA; збір і звірку даних автоматизую AI-агентами.Принцип — «Don't trust, verify»: кожна цифра перевірена за першоджерелом, ключові — щонайменше за двома незалежними; прогнози — лише сценарії з умовами. Теза без даних не публікується.