@InProceedings{Empotz-2005,
author={Hubert Emptoz}, title={Le patrimoine écrit : Numérisation et Reconnaissance}, booktitle={COmpression et REprésentation des Signaux Audiovisuels}, year={2006}, month={novembre}, session={Invite}, abstract={ La numérisation du patrimoine écrit est aujourd~hui un domaine très médiatisé (projet de Google, Bibliothèque Numérique Européenne,~) . Cela ne doit pas faire oublier que c'est un domaine qui est encore en pleine émergence et qu'il demeure encore bien des confusions entre ce qui est récent, ce qui est nouveau et ce qui est du domaine de la recherche, entre document numérisé et document numérique. Pour les spécialistes du patrimoine numériser n'est pas seulement capturer et transformer un document en pixels, c'est aussi mettre en oeuvre tous les traitements disponibles aujourd'hui (et élaborés prochainement) qui permettront de satisfaire au mieux le besoin ou le souhait de l'utilisateur. Numériser conduit à un nouvel objet dont les processus de mise à disposition pour le lecteur utilisateur sont encore objets de recherche, d'autant plus que de nouveaux usages apparaissent et que la demande sociétale va encore beaucoup évoluer ; il est clair qu~une des clés de la réussite d'un projet de numérisation est la pluridisciplinarité. L~usage des collections numérisées se réduit encore trop souvent à la simple interrogation des fiches documentaires et à la lecture des documents en mode image sur un écran. Ceci provient d~un manque d~outils permettant un véritable accès aux documents écrits numérisés. Ce "retard technologique" s~explique par les caractéristiques spécifiques des images de documents écrits : ces images sont essentiellement des images de traits qui, de plus, contiennent un très grand nombre d~objets complexes à reconnaître suivant leur localisation et leur représentation. Dans un document écrit patrimonial il y a plusieurs niveaux d~information auxquels il conviendrait d~accéder : a) le niveau textuel, manuscrit ou imprimé, b) la structuration et la mise en page (qui traduisent une intentionnalité !), c) des métadonnées diverses. L~accès, même partiel, à chacun de ces niveaux constitue les défis que les spécialistes d~analyse d~images devront relever. A partir d~études de cas, nous montrerons que chaque collection de documents possède sa spécificité en termes de métadonnées, de qualité d~images, de complexité des contenus et de méthodologies à mettre en oeuvre. Nous présenterons les premières approches alternatives qui permettent d~accéder aux contenus textuels des documents du patrimoine ; ces alternatives qui utilisent des démarches autres que la reconnaissance de caractères ouvrent de nouvelles voies aux moteurs de recherche sur Internet. Nous exposerons les avancées récentes en reconnaissance de structures de documents et en extraction de métadonnées particulières, lesquelles offrent de nouveaux services aux usagers en terme de navigation et d~interrogation. Nous montrerons que l~analyse d~image contribue aussi au développement de nouvelles recherches en sciences humaines en proposant des méthodes innovantes au service de la codicologie pour la datation des ouvrages, de la graphologie pour la reconnaissance de scripteurs ou de la paléographie pour l~authentification et la datation de manuscrits médiévaux par la reconnaissance de l~écriture.}
}