Unlimited-OCR від Baidu: компактна відкрита модель для розпізнавання тексту

Оновлення: 2026/06/25

2 хв. читання

Що сталося

У червні 2026 року Baidu виклала у відкритий доступ Unlimited-OCR — компактну модель для розпізнавання тексту й розбору документів (клас задач image-text-to-text). Модель швидко потрапила в тренди Hugging Face: близько 45 700 завантажень і 708 «лайків» на момент перевірки. Головне в релізі — невеликий розмір (3 млрд параметрів) і вільна ліцензія MIT, що дозволяє комерційне використання.

Що сталося
Деталі
Що це означає

Деталі

Що вміє. Розпізнає текст із зображень, розбирає багатосторінкові документи й PDF, тримає довгі документи; підтримує кілька мов.
Архітектура. Vision-language трансформер на 3 млрд параметрів, формат SafeTensors, точність BF16, сумісність із Hugging Face Transformers. Два режими: «gundam» (для обрізаних фрагментів) і «base» (для повного зображення).
Бенчмарк. На наборі ParseBench (LlamaIndex) загальний середній бал — 46,17; за вилученням саме текстового вмісту — 86,81 (форматування помітно слабше — 0,97).
Екосистема. Навколо моделі вже з’явилися 3 донавчені версії і 9 квантованих складань під різні рушії інференсу.

Що це означає

Стосується це розробників та ентузіастів, яким потрібен OCR без хмари й без оплати за API. Практичний сенс: модель на 3B з ліцензією MIT реально запустити локально навіть на скромному залізі, особливо у квантованому вигляді — тобто розпізнавання документів можна вбудувати у свій конвеєр безкоштовно й без надсилання даних на сторону. Сильний бік за бенчмарком — саме вилучення тексту (86,81), слабкий — збереження форматування (0,97): для складних таблиць і верстки модель поки не ідеальна, а для «витягнути текст зі скана/PDF» підходить добре. Горизонт — одразу: ваги й квантовані складання вже доступні для завантаження.

Приз-фонд $40K+

BINANCE

Приз-фонд $40K+

Перший до $175M обсягу — +7000 USDC

ТОРГУВАТИ

ТЕГИ:ai-models benchmarks quantization

ДЖЕРЕЛА:Hugging Face (Baidu)ParseBench (LlamaIndex)

Поділитися

ByVolodymyr Polkovnichenko

Зв'язатися:

Крипто- та data-аналітик, інженер-програміст (факультет комп'ютерних наук ХНУРЕ). В IT з 2008 року: адміністрував корпоративний моніторинг у «Vodafone Україна», сім років розробляв і просував веб-проєкти, п'ять років керував маркетингом на метриках — конверсія, CTR, ROI, LTV.Криптовалютними ринками займаюся з 2021 року: ончейн-метрики, токеноміка, макроекономічні індикатори. Розробив власну data-driven модель аналізу ринку на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математична статистика та EDA; збір і звірку даних автоматизую AI-агентами.Принцип — «Don't trust, verify»: кожна цифра перевірена за першоджерелом, ключові — щонайменше за двома незалежними; прогнози — лише сценарії з умовами. Теза без даних не публікується.