Generative AI 19.03.2026 00:08

Команда Baidu Qianfan выпустила Qianfan-OCR: 4B-параметровую модель для унифицированной обработки документов

Команда разработчиков Qianfan из компании Baidu представила Qianfan-OCR — унифицированную систему интеллектуального анализа документов. В отличие от классических OCR-решений, которые зачастую полагаются на каскад из нескольких разрозненных нейросетей для разных задач, этот проект объединяет распознавание текста и понимание структуры документа в рамках единого архитектурного фреймворка.

Техническая архитектура и ключевые особенности

В основе Qianfan-OCR лежит гибридная архитектура, сочетающая в себе возможности Vision Transformer (ViT) для извлечения визуальных признаков и языковых моделей на базе спецификации Transformer для глубокой интерпретации текста. Связующим звеном выступают механизмы перекрестного внимания (cross-attention), которые позволяют сопоставлять визуальные артефакты документа с текстовым содержанием. Модульная структура системы дает возможность гибко адаптировать ее под конкретные бизнес-задачи без полной переработки ядра.

Проще говоря, модель умеет не просто «считывать» буквы, но и осознавать контекст. Процесс обучения проходил в несколько этапов: базовое обучение на массивных датасетах с документацией сменялось тонкой настройкой (fine-tuning) под специфические сценарии. Для повышения устойчивости системы к разным условиям съемки или сканирования разработчики применяли методы синтетической генерации данных и самообучение (self-supervised learning) на неразмеченных выборках.

Производительность и точность распознавания

Результаты бенчмарков демонстрируют высокий уровень эффективности: точность распознавания текста достигает 98,6%, а показатели в задачах классификации документов и извлечения информации зафиксированы на отметке 97,2%. Если сравнивать с предыдущими SOTA-решениями (state-of-the-art), прогресс в распознавании символов составил 2,3%, а в понимании структуры — 4,1%. Важным преимуществом стала поддержка более 20 языков, включая арабский, корейский, японский, английский и китайский.

С точки зрения вычислительной эффективности, переход к единой модели позволил на 35% ускорить обработку данных по сравнению с традиционными многомодельными подходами. При этом требования к аппаратным ресурсам снизились примерно на 40%, что делает масштабирование системы более экономичным для крупных предприятий.

Функциональные возможности системы

Qianfan-OCR охватывает широкий спектр задач по автоматизации документооборота. Система способна проводить глубокий анализ макета (layout analysis), определяя заголовки, параграфы и списки. Она эффективно справляется с многостраничными файлами (поддерживаются документы объемом до 1000 страниц) и сложными таблицами, преобразуя их в структурированные форматы. Кроме того, технология одинаково успешно распознает как печатный текст, так и рукописный ввод.

На практике это значит, что одно решение может закрывать потребности разных департаментов: от бухгалтерии (обработка инвойсов и чеков) и юридического отдела (анализ контрактов) до медицинских учреждений, где требуется оцифровка рецептов и историй болезни. Система также находит применение в госсекторе для верификации удостоверений личности и паспортов.

Варианты развертывания и оптимизация

Baidu предлагает гибкую сетку дистрибуции модели. Помимо доступа через облачную платформу Baidu Cloud по RESTful API и SDK для популярных языков программирования, предусмотрены возможности локального внедрения. Для работы в облаке рекомендуются серверы с GPU уровня NVIDIA V100, однако архитектура позволяет запускать OCR и на «граничных» устройствах (edge computing).

Разработчики подготовили несколько версий модели в зависимости от целевого «железа». Базовая модель весит около 150 МБ, в то время как оптимизированные варианты для мобильных систем занимают от 50 до 80 МБ. Для экстремально легких решений доступны квантованные версии размером 20–30 МБ, способные работать на мобильных процессорах с оперативной памятью от 4 ГБ. Поддерживаются все основные форматы: от стандартных изображений (JPEG, PNG, TIFF) до офисных документов (PDF, DOCX, XLSX, PPTX).

Вектор дальнейшего развития

В ближайших планах команды заявлено развитие мультимодальности — интеграция OCR с компьютерным зрением и технологиями распознавания речи для еще более глубокого анализа контента. Также ведется работа над специализированными отраслевыми версиями, оптимизированными под узкие ниши, и улучшением потоковой обработки данных в режиме реального времени. На текущий момент Qianfan-OCR позиционируется как универсальный инструмент, решающий проблему сложности и ресурсозатратности старых систем распознавания документов.

#ИИ #OCR #обработка документов #Baidu #Qianfan-OCR #распознавание текста #анализ макета

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...