DocAI Processor

Traitement Intelligent de Documents et Extraction

Document AILayoutLMv3OCRComputer VisionPython

Un système de classification et d'extraction de données documentaires développé pour le traitement des sinistres d'une compagnie d'assurance. L'entreprise recevait en moyenne 2 800 demandes quotidiennes, chacune contenant 5 à 8 documents différents. L'équipe opérationnelle classait manuellement les documents et saisissait les champs un par un ; le taux d'erreur dépassait 12%.

Nous avons conçu un pipeline en trois étapes : d'abord, les images de documents passent par un prétraitement et une correction. Ensuite, un modèle LayoutLMv3 affiné classifie le document et extrait les champs clés. Enfin, un moteur de règles métier valide les données extraites et les envoie au système ERP. Les documents à faible confiance sont orientés vers une revue humaine.

Architecture du Système

IngestionProcessingIntelligenceOutputJobsProcessTextStoreEntitiesTypedVerifiedStatusFilesUpload ServiceJob QueueOCR EngineNLP PipelineObject StorageClassifierValidationExport APIDashboard

Points forts

  • Classification et extraction basées sur LayoutLMv3
  • Pipeline de prétraitement d'images (correction, réduction de bruit)
  • Moteur de règles métier pour validation automatisée
  • Revue humaine pour les documents à faible confiance
  • Intégration bidirectionnelle avec le système ERP

Résultats

Précision de classification à 94,8% (99,2% avec revue humaine)
Temps de traitement réduit de 22 minutes à 90 secondes
Erreurs de saisie réduites de 12% à 1,4%
6 ETP libérés dans l'équipe opérationnelle