Що сталося
У червні 2026 року Baidu виклала у відкритий доступ Unlimited-OCR — компактну модель для розпізнавання тексту й розбору документів (клас задач image-text-to-text). Модель швидко потрапила в тренди Hugging Face: близько 45 700 завантажень і 708 «лайків» на момент перевірки. Головне в релізі — невеликий розмір (3 млрд параметрів) і вільна ліцензія MIT, що дозволяє комерційне використання.
Деталі
- Що вміє. Розпізнає текст із зображень, розбирає багатосторінкові документи й PDF, тримає довгі документи; підтримує кілька мов.
- Архітектура. Vision-language трансформер на 3 млрд параметрів, формат SafeTensors, точність BF16, сумісність із Hugging Face Transformers. Два режими: «gundam» (для обрізаних фрагментів) і «base» (для повного зображення).
- Бенчмарк. На наборі ParseBench (LlamaIndex) загальний середній бал — 46,17; за вилученням саме текстового вмісту — 86,81 (форматування помітно слабше — 0,97).
- Екосистема. Навколо моделі вже з’явилися 3 донавчені версії і 9 квантованих складань під різні рушії інференсу.
Що це означає
Стосується це розробників та ентузіастів, яким потрібен OCR без хмари й без оплати за API. Практичний сенс: модель на 3B з ліцензією MIT реально запустити локально навіть на скромному залізі, особливо у квантованому вигляді — тобто розпізнавання документів можна вбудувати у свій конвеєр безкоштовно й без надсилання даних на сторону. Сильний бік за бенчмарком — саме вилучення тексту (86,81), слабкий — збереження форматування (0,97): для складних таблиць і верстки модель поки не ідеальна, а для «витягнути текст зі скана/PDF» підходить добре. Горизонт — одразу: ваги й квантовані складання вже доступні для завантаження.
