DocAI Processor

Procesamiento Inteligente de Documentos y Extracción

Document AILayoutLMv3OCRComputer VisionPython

Un sistema de clasificación de documentos y extracción de datos desarrollado para el procesamiento de reclamaciones de una aseguradora. La empresa recibía un promedio de 2.800 reclamaciones diarias, cada una con 5-8 documentos diferentes. El equipo de operaciones clasificaba manualmente los documentos e ingresaba los campos relevantes uno por uno; la tasa de error superaba el 12%.

Diseñamos un pipeline de tres etapas: primero, las imágenes de documentos pasan por preprocesamiento y corrección. Segundo, un modelo LayoutLMv3 ajustado clasifica el documento y extrae campos clave. Tercero, un motor de reglas de negocio valida los datos extraídos y los envía al sistema ERP. Los documentos con baja confianza se derivan a revisión humana.

Arquitectura del Sistema

IngestionProcessingIntelligenceOutputJobsProcessTextStoreEntitiesTypedVerifiedStatusFilesUpload ServiceJob QueueOCR EngineNLP PipelineObject StorageClassifierValidationExport APIDashboard

Aspectos Destacados

  • Clasificación y extracción de campos basada en LayoutLMv3
  • Pipeline de preprocesamiento de imágenes (corrección, reducción de ruido)
  • Motor de reglas de negocio para validación automatizada
  • Revisión humana para documentos de baja confianza
  • Integración bidireccional con sistema ERP

Resultados

Precisión de clasificación del 94,8% (99,2% con revisión humana)
Tiempo de procesamiento reducido de 22 minutos a 90 segundos
Errores de entrada manual reducidos del 12% al 1,4%
Liberó 6 FTEs del equipo de operaciones