Unlimited-OCR от Baidu: компактная открытая модель для распознавания текста

2 мин. чтения
Плечо 5× на исход матча
BYBIT · ЧМ ПО ФУТБОЛУ
Плечо 5× на исход матча
Первый в мире фьючерс на счёт матча. Авто-расчёт по финалу.
Торговать →

Что произошло

В июне 2026 года Baidu выложила в открытый доступ Unlimited-OCR — компактную модель для распознавания текста и разбора документов (класс задач image-text-to-text). Модель быстро попала в тренды Hugging Face: около 45 700 загрузок и 708 «лайков» на момент проверки. Главное в релизе — небольшой размер (3 млрд параметров) и свободная лицензия MIT, разрешающая коммерческое использование.

Детали

  • Что умеет. Распознаёт текст с изображений, разбирает многостраничные документы и PDF, держит длинные документы; поддерживает несколько языков.
  • Архитектура. Vision-language трансформер на 3 млрд параметров, формат SafeTensors, точность BF16, совместимость с Hugging Face Transformers. Два режима: «gundam» (для обрезанных фрагментов) и «base» (для полного изображения).
  • Бенчмарк. На наборе ParseBench (LlamaIndex) общий средний балл — 46,17; по извлечению именно текстового содержимого — 86,81 (форматирование заметно слабее — 0,97).
  • Экосистема. Вокруг модели уже появились 3 дообученные версии и 9 квантованных сборок под разные движки инференса.

Что это значит

Касается это разработчиков и энтузиастов, которым нужен OCR без облака и без оплаты за API. Практический смысл: модель на 3B с лицензией MIT реально запустить локально даже на скромном железе, особенно в квантованном виде — то есть распознавание документов можно встроить в свой пайплайн бесплатно и без отправки данных на сторону. Сильная сторона по бенчмарку — само извлечение текста (86,81), слабая — сохранение форматирования (0,97): для сложных таблиц и вёрстки модель пока не идеальна, а для «вытащить текст из скана/PDF» подходит хорошо. Горизонт — сразу: веса и квантованные сборки уже доступны для загрузки.

$100M Giveaway
BYBIT GIVEAWAY
$100M Giveaway
Акции, золото, нефть + до $1000 в NVDA · до 30 июня
Зарегистрироваться →
Поделиться
Связаться:
Крипто- и data-аналитик, инженер-программист (факультет компьютерных наук ХНУРЭ). В IT с 2008 года: администрировал корпоративный мониторинг в «Vodafone Украина», семь лет разрабатывал и продвигал веб-проекты, пять лет руководил маркетингом на метриках — конверсия, CTR, ROI, LTV.Криптовалютными рынками занимаюсь с 2021 года: ончейн-метрики, токеномика, макроэкономические индикаторы. Разработал собственную data-driven модель анализа рынка на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математическая статистика и EDA; сбор и сверку данных автоматизирую AI-агентами.Принцип — «Don't trust, verify»: каждая цифра проверена по первоисточнику, ключевые — минимум по двум независимым; прогнозы — только сценарии с условиями. Тезис без данных не публикуется.