Unlimited-OCR від Baidu: компактна відкрита модель для розпізнавання тексту

2 хв. читання
BINANCE TRADERS LEAGUE S3
Спот і ф'ючерси · старт ф'ючерсів 23.06
Приєднатися →

Що сталося

У червні 2026 року Baidu виклала у відкритий доступ Unlimited-OCR — компактну модель для розпізнавання тексту й розбору документів (клас задач image-text-to-text). Модель швидко потрапила в тренди Hugging Face: близько 45 700 завантажень і 708 «лайків» на момент перевірки. Головне в релізі — невеликий розмір (3 млрд параметрів) і вільна ліцензія MIT, що дозволяє комерційне використання.

Деталі

  • Що вміє. Розпізнає текст із зображень, розбирає багатосторінкові документи й PDF, тримає довгі документи; підтримує кілька мов.
  • Архітектура. Vision-language трансформер на 3 млрд параметрів, формат SafeTensors, точність BF16, сумісність із Hugging Face Transformers. Два режими: «gundam» (для обрізаних фрагментів) і «base» (для повного зображення).
  • Бенчмарк. На наборі ParseBench (LlamaIndex) загальний середній бал — 46,17; за вилученням саме текстового вмісту — 86,81 (форматування помітно слабше — 0,97).
  • Екосистема. Навколо моделі вже з’явилися 3 донавчені версії і 9 квантованих складань під різні рушії інференсу.

Що це означає

Стосується це розробників та ентузіастів, яким потрібен OCR без хмари й без оплати за API. Практичний сенс: модель на 3B з ліцензією MIT реально запустити локально навіть на скромному залізі, особливо у квантованому вигляді — тобто розпізнавання документів можна вбудувати у свій конвеєр безкоштовно й без надсилання даних на сторону. Сильний бік за бенчмарком — саме вилучення тексту (86,81), слабкий — збереження форматування (0,97): для складних таблиць і верстки модель поки не ідеальна, а для «витягнути текст зі скана/PDF» підходить добре. Горизонт — одразу: ваги й квантовані складання вже доступні для завантаження.

Приз-фонд $40K+
BINANCE
Приз-фонд $40K+
Перший до $175M обсягу — +7000 USDC
ТОРГУВАТИ
Поділитися
Зв'язатися:
Крипто- та data-аналітик, інженер-програміст (факультет комп'ютерних наук ХНУРЕ). В IT з 2008 року: адміністрував корпоративний моніторинг у «Vodafone Україна», сім років розробляв і просував веб-проєкти, п'ять років керував маркетингом на метриках — конверсія, CTR, ROI, LTV.Криптовалютними ринками займаюся з 2021 року: ончейн-метрики, токеноміка, макроекономічні індикатори. Розробив власну data-driven модель аналізу ринку на 30+ метрик. Стек — Python (pandas, NumPy, SciPy, matplotlib), математична статистика та EDA; збір і звірку даних автоматизую AI-агентами.Принцип — «Don't trust, verify»: кожна цифра перевірена за першоджерелом, ключові — щонайменше за двома незалежними; прогнози — лише сценарії з умовами. Теза без даних не публікується.