DocAI Processor

Интеллектуальная обработка документов и извлечение данных

Document AILayoutLMv3OCRComputer VisionPython

Система классификации документов и извлечения данных, разработанная для обработки страховых претензий. Компания получала в среднем 2 800 претензий ежедневно, каждая содержала 5-8 различных документов. Операционная группа вручную классифицировала документы и вводила данные по одному; уровень ошибок превышал 12%.

Мы спроектировали трёхэтапный конвейер: на первом этапе изображения документов проходят предобработку и коррекцию. На втором — дообученная модель LayoutLMv3 классифицирует документ и извлекает ключевые поля. На третьем — движок бизнес-правил валидирует извлечённые данные и передаёт их в ERP-систему. Документы с низкой уверенностью направляются на ручную проверку.

Архитектура системы

IngestionProcessingIntelligenceOutputJobsProcessTextStoreEntitiesTypedVerifiedStatusFilesUpload ServiceJob QueueOCR EngineNLP PipelineObject StorageClassifierValidationExport APIDashboard

Ключевые моменты

  • Классификация и извлечение полей на базе LayoutLMv3
  • Конвейер предобработки изображений (коррекция наклона, снижение шума)
  • Движок бизнес-правил для автоматической валидации
  • Ручная проверка документов с низкой уверенностью
  • Двунаправленная интеграция с ERP-системой

Результаты

Точность классификации 94,8% (99,2% с ручной проверкой)
Время обработки сократилось с 22 минут до 90 секунд
Ошибки ручного ввода снизились с 12% до 1,4%
Высвобождено 6 сотрудников операционной группы