Что произошло
23 июня 2026 года Mistral AI выпустила OCR 4 — модель «документного интеллекта», которая не просто вытаскивает текст из файлов, а возвращает структуру документа целиком. Модель доступна по API под именем mistral-ocr-latest.
Детали
- Не текст, а структура. OCR 4 отдаёт координаты блоков (bounding boxes), классифицирует их по типам (заголовки, таблицы, формулы, подписи и т.д.), проставляет оценку уверенности по каждому слову и странице и выдаёт результат в виде структурированного markdown. Поддерживаются PDF, DOC, PPT и OpenDocument.
- Языки. 170 языков в 10 языковых группах.
- Цены. $4 за 1000 страниц через обычный API; $2 за 1000 страниц в Batch API (скидка 50%); $5 за 1000 страниц в режиме Document AI (на дату анонса, 23 июня).
- Бенчмарки. 85,20 на OlmOCRBench (лучший результат в тесте) и 93,07 на OmniDocBench; в слепых сравнениях независимые оценщики предпочитали OCR 4 другим ведущим системам со средним показателем побед около 72%.
- Где доступно. Mistral Studio, Amazon SageMaker, Microsoft Foundry, на подходе — Snowflake; для требований к приватности данных есть self-hosting.
Что это значит
Касается прежде всего разработчиков и команд, которые строят на документах: RAG-поиск по базе знаний, обработку счетов и договоров, оцифровку архивов. Практическая разница с обычным OCR — в том, что модель отдаёт не «простыню текста», а размеченную структуру с координатами и оценкой уверенности: это резко упрощает дальнейшую автоматизацию и проверку результата, где раньше приходилось дописывать собственные парсеры. Конкретная экономика: $2–5 за 1000 страниц делает массовую обработку документов доступной даже небольшим проектам, а self-hosting снимает вопрос с конфиденциальными данными. Горизонт — сразу: модель уже в API на нескольких платформах, попробовать можно сегодня. Бенчмарки и заявленные 72% предпочтений — заявка вендора, реальное качество стоит проверять на своих документах.
