Contribution à la reconnaissance automatique des documents d'entreprises

Djamel Gaceb &
Frank Lebourgeois &
Véronique Eglin &
Hubert Emptoz.

Le traitement automatique de documents et courrier d'entreprises est un domaine exigeant en terme de performances et de vitesse. Les systèmes actuels utilisent des architectures modulaires dans lesquelles chaque étape du processus de reconnaissance est indépendante. Pour augmenter les performances, il est nécessaire de réintroduire une coopération entre les différents modules. Dans ce cadre, nous proposons une approche hybride de localisation des zones de textes et de binarisation des images. Ce couplage permet à la fois de gagner en temps de calcul en évitant de traiter l'arrière plan de l'image et d'obtenir une meilleure segmentation en caractères pour l'OCR. Nous présenterons les résultats obtenus à partir de l'implémentation de notre nouvelle approche sur une ligne industrielle qui traite quotidiennement plusieurs tonnes de courrier et documents internes de grandes entreprises.