Что произошло
В июне 2026 года Baidu выложила в открытый доступ Unlimited-OCR — компактную модель для распознавания текста и разбора документов (класс задач image-text-to-text). Модель быстро попала в тренды Hugging Face: около 45 700 загрузок и 708 «лайков» на момент проверки. Главное в релизе — небольшой размер (3 млрд параметров) и свободная лицензия MIT, разрешающая коммерческое использование.
Детали
- Что умеет. Распознаёт текст с изображений, разбирает многостраничные документы и PDF, держит длинные документы; поддерживает несколько языков.
- Архитектура. Vision-language трансформер на 3 млрд параметров, формат SafeTensors, точность BF16, совместимость с Hugging Face Transformers. Два режима: «gundam» (для обрезанных фрагментов) и «base» (для полного изображения).
- Бенчмарк. На наборе ParseBench (LlamaIndex) общий средний балл — 46,17; по извлечению именно текстового содержимого — 86,81 (форматирование заметно слабее — 0,97).
- Экосистема. Вокруг модели уже появились 3 дообученные версии и 9 квантованных сборок под разные движки инференса.
Что это значит
Касается это разработчиков и энтузиастов, которым нужен OCR без облака и без оплаты за API. Практический смысл: модель на 3B с лицензией MIT реально запустить локально даже на скромном железе, особенно в квантованном виде — то есть распознавание документов можно встроить в свой пайплайн бесплатно и без отправки данных на сторону. Сильная сторона по бенчмарку — само извлечение текста (86,81), слабая — сохранение форматирования (0,97): для сложных таблиц и вёрстки модель пока не идеальна, а для «вытащить текст из скана/PDF» подходит хорошо. Горизонт — сразу: веса и квантованные сборки уже доступны для загрузки.
