
@InProceedings{Empotz-2005,
author={Hubert Emptoz},
title={Le patrimoine écrit : Numérisation et Reconnaissance},
booktitle={COmpression et REprésentation des Signaux Audiovisuels},
year={2006},
month={novembre},
session={Invite},
abstract={ La numérisation du patrimoine écrit est
aujourd~hui un domaine très médiatisé (projet de
Google, Bibliothèque Numérique Européenne,~)
. Cela ne doit pas faire oublier que c'est un
domaine qui est encore en pleine émergence et
qu'il demeure encore bien des confusions entre ce
qui est récent, ce qui est nouveau et ce qui est
du domaine de la recherche, entre document
numérisé et document numérique. Pour les
spécialistes du patrimoine numériser n'est pas
seulement capturer et transformer un document en
pixels, c'est aussi mettre en oeuvre tous les
traitements disponibles aujourd'hui (et élaborés
prochainement) qui permettront de satisfaire au
mieux le besoin ou le souhait de
l'utilisateur. Numériser conduit à un nouvel objet
dont les processus de mise à disposition pour le
lecteur utilisateur sont encore objets de
recherche, d'autant plus que de nouveaux usages
apparaissent et que la demande sociétale va encore
beaucoup évoluer ; il est clair qu~une des clés de
la réussite d'un projet de numérisation est la
pluridisciplinarité. L~usage des collections
numérisées se réduit encore trop souvent à la
simple interrogation des fiches documentaires et Ã
la lecture des documents en mode image sur un
écran. Ceci provient d~un manque d~outils
permettant un véritable accès aux documents écrits
numérisés. Ce "retard technologique" s~explique
par les caractéristiques spécifiques des images de
documents écrits : ces images sont essentiellement
des images de traits qui, de plus, contiennent un
très grand nombre d~objets complexes à reconnaître
suivant leur localisation et leur
représentation. Dans un document écrit patrimonial
il y a plusieurs niveaux d~information auxquels il
conviendrait d~accéder : a) le niveau textuel,
manuscrit ou imprimé, b) la structuration et la
mise en page (qui traduisent une intentionnalité
!), c) des métadonnées diverses. L~accès, même
partiel, Ã chacun de ces niveaux constitue les
défis que les spécialistes d~analyse d~images
devront relever. A partir d~études de cas, nous
montrerons que chaque collection de documents
possède sa spécificité en termes de métadonnées,
de qualité d~images, de complexité des contenus et
de méthodologies à mettre en oeuvre. Nous
présenterons les premières approches alternatives
qui permettent d~accéder aux contenus textuels des
documents du patrimoine ; ces alternatives qui
utilisent des démarches autres que la
reconnaissance de caractères ouvrent de nouvelles
voies aux moteurs de recherche sur Internet. Nous
exposerons les avancées récentes en reconnaissance
de structures de documents et en extraction de
métadonnées particulières, lesquelles offrent de
nouveaux services aux usagers en terme de
navigation et d~interrogation. Nous montrerons que
l~analyse d~image contribue aussi au développement
de nouvelles recherches en sciences humaines en
proposant des méthodes innovantes au service de la
codicologie pour la datation des ouvrages, de la
graphologie pour la reconnaissance de scripteurs
ou de la paléographie pour l~authentification et
la datation de manuscrits médiévaux par la
reconnaissance de l~écriture.}
}