Що сталося
23 червня 2026 року Mistral AI випустила OCR 4 — модель «документного інтелекту», яка не просто витягує текст із файлів, а повертає структуру документа цілком. Модель доступна за API під іменем mistral-ocr-latest.
Деталі
- Не текст, а структура. OCR 4 віддає координати блоків (bounding boxes), класифікує їх за типами (заголовки, таблиці, формули, підписи тощо), проставляє оцінку впевненості за кожним словом і сторінкою та видає результат у вигляді структурованого markdown. Підтримуються PDF, DOC, PPT і OpenDocument.
- Мови. 170 мов у 10 мовних групах.
- Ціни. $4 за 1000 сторінок через звичайний API; $2 за 1000 сторінок у Batch API (знижка 50%); $5 за 1000 сторінок у режимі Document AI (на дату анонсу, 23 червня).
- Бенчмарки. 85,20 на OlmOCRBench (найкращий результат у тесті) і 93,07 на OmniDocBench; у сліпих порівняннях незалежні оцінювачі віддавали перевагу OCR 4 перед іншими провідними системами із середнім показником перемог близько 72%.
- Де доступно. Mistral Studio, Amazon SageMaker, Microsoft Foundry, на підході — Snowflake; для вимог до приватності даних є self-hosting.
Що це означає
Стосується насамперед розробників і команд, які будують на документах: RAG-пошук по базі знань, обробку рахунків і договорів, оцифрування архівів. Практична різниця зі звичайним OCR — у тому, що модель віддає не «простирадло тексту», а розмічену структуру з координатами та оцінкою впевненості: це різко спрощує подальшу автоматизацію та перевірку результату, де раніше доводилося дописувати власні парсери. Конкретна економіка: $2–5 за 1000 сторінок робить масову обробку документів доступною навіть невеликим проєктам, а self-hosting знімає питання з конфіденційними даними. Горизонт — одразу: модель уже в API на кількох платформах, спробувати можна сьогодні. Бенчмарки та заявлені 72% переваг — заявка вендора, реальну якість варто перевіряти на своїх документах.
