Equipe BD
Equipe BD
Laboratoire d'InfoRmatique en Images et Systèmes d'information
UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon

You are here

Migration et Enrichissement Sémantique d'Entités Culturelles

Qui: 
Joffrey DECOURSELLE
Quand: 
Monday, September 24, 2018 - 13:00 to 14:00
Où: 
Université Lyon1, Dép. Informatique, Bât. Nautibus, salle C1

Les technologies du Web Sémantique offrent de nouvelles possibilités pour améliorer les services dédiés à la diffusion des connaissances culturelles et intellectuelles. Cependant, de nombreuses institutions, en charge de fonds documentaires, doivent gérer leurs catalogues selon des normes héritées des années 60. Le paradigme historique des notices papier, où chaque notice décrit un document possédé par une institution, est encore majoritairement utilisé par la communauté documentaire. Les notices, aujourd'hui numériques, sont toujours conçues dans le but d'être lues et comprises par des documentalistes. Ainsi, elles reposent sur des modèles spécifiques à ce métier qui ne permettent pas une réutilisation idéale des connaissances qu'elles contiennent. Dans ce contexte, les nombreux catalogues contenant ces notices demeurent isolés du mouvement actuel prônant l'interopérabilité et l'exploration sémantique des sources de données. C'est pourquoi, différentes approches ont été étudiées depuis plus de 20 ans pour rendre possible l'adoption des technologies sémantiques dans l'univers bibliographique. De nouveaux modèles comme FRBR/LRM, ont été développés par la communauté pour permettre l'organisation des informations documentaires selon le paradigme d'entités et d'associations et de nouveaux vocabulaires sémantiques comme RDA facilitent l'interopérabilité des bases de données bibliographiques avec le web de données. Toutefois, un enjeu majeur pour les institutions documentaires consiste à transformer l'ensemble des données bibliographiques existantes, issues des anciens paradigmes, vers ces nouveaux modèles et vocabulaires sémantiques.

L'interprétation et la migration des anciennes notices bibliographiques vers des bases de connaissances sémantiques implique de relever des enjeux scientifiques importants. Un premier challenge consiste à adapter les modèles du domaine documentaire aux formalismes et principes du web sémantique. En effet, le patrimoine bibliographique est riche de multiples relations entre les documents permettant la description de familles bibliographiques complexes dans un catalogue documentaire. Cette richesse bibliographique, peu considérée par la communauté du web sémantique, doit être modélisée et intégrée dans les expérimentations de cette communauté avec des technologies adaptées. En ce sens, on observe un manque de jeux de données et de métriques qui intègrent ces relations riches et particulières au domaine documentaire. Un autre challenge est celui de l'interprétation des connaissances bibliographiques, issues des notices, avant de pouvoir les intégrer dans de nouvelles bases de données. La complexité de cette tâche d'interprétation peut varier selon les pratiques de catalogage des institutions documentaires et les modèles utilisées par ces dernières. Considérant que certains catalogues contiennent de très nombreuses notices, leur transformation implique le développement d'outils automatiques qui considèrent d'un côté les relations riches et spécifiques du domaine documentaires et d'un autre côté qui s'adaptent aux pratiques spécifiques des institutions. Pour résumer, l'adoption des technologies du web sémantique dans la communauté documentaire est partagée entre un processus complexe et long de normalisation et d'évaluation des connaissances bibliographiques pour respecter la qualité et richesse des données et un besoin immédiat d'outils permettant la transformation des catalogues existants. Ce double-enjeu implique de nombreux efforts aux institutions documentaires pour entamer leur conversion vers le web sémantique. Bien que plusieurs agences nationales aient initié des démarches de transformation de leurs catalogues, de nombreuses institutions publiques comme privées, possédant des ressources plus spécialisées ou exclues des catalogues nationaux, manquent de compétences techniques et d'outils adaptées pour réussir une transformation satisfaisant les enjeux de qualité du domaine. Face à cette problématique, l'enjeu principal de cette thèse consiste à apporter des solutions innovantes pour la migration et l'enrichissement des catalogues bibliographiques pour former de nouvelles bases de connaissances.

La première contribution de cette thèse concerne l'évaluation de la qualité des bases de connaissances bibliographiques. En effet, l'évolution des données bibliographiques vers de nouvelles bases de connaissances sémantiques doit respecter les exigences de la communauté en termes de qualité et de réutilisabilité des données. Cependant, les écarts importants entre les anciens modèles de notices et les ontologies du web sémantique soulèvent des divergences dans la communauté concernant la modélisation des connaissances et la standardisation des nouveaux modèles bibliographiques. A cela s'ajoute le manque de métriques et d'expérimentations rendant difficile l'évaluation des systèmes et outils informatiques utilisés dans ce domaine. C'est pourquoi nous proposons un benchmark original qui est dédié à l'interprétation et à la transformation des catalogues bibliographiques ainsi qu'à l'évaluation des nouvelles bases de connaissances sémantiques émergentes. Ce benchmark est composé d'une part de métriques qui permettent d'anticiper les efforts de transformation des catalogues et de faciliter la création de nouvelles solutions informatiques dédiées à ce processus. D'autre part, les jeux de données que nous proposons intègrent un ensemble exhaustif de tests sur les spécificités des notices bibliographiques.

La deuxième contribution de cette thèse est une méthodologie pour l'extraction automatique des connaissances avancées d'un catalogue bibliographique. Notre objectif est de faciliter la création, par les documentalistes, de modèles de règles qui permettent l'interprétation et la transformation des notices en considérant les particularités du domaine bibliographique. Notre méthode considère notamment l'extraction des motifs de connaissances avancés (ex., traductions, agrégations, illustrations) en bénéficiant de mécanismes apportés par les graphes d'entités et d'associations bibliographiques. Notre approche repose sur l'hypothèse que la transformation de connaissances complexes peut être simplifiée par la gestion de règles de migration à un niveau d'abstraction élevé. Cela signifie que notre système propose une gestion des règles au niveau des motifs de connaissances bibliographiques de la communauté et pas au niveau des entités des modèles existants comme c'est le cas dans des outils de migration plus courants. L'originalité de notre approche est de faciliter l'écriture de règles de migration et d'enrichissement des notices tout en améliorant la qualité globale du processus grâce à une meilleurs lisibilité des règles et par la prise en compte des relations bibliographiques avancées du domaine documentaire.

La troisième contribution s'inscrit dans la continuité des deux contributions précédentes. Nous proposons l'implémentation d'un système d'intégration de données bibliographiques qui repose nativement sur les métriques de qualité du domaine, pour mieux interpréter les catalogues à migrer, ainsi que notre méthodologie de modélisation des règles de transformation pour faciliter le processus aux experts documentaires. Notre solution permet la modélisation de règles, à un niveau d'abstraction élevé, pour réaliser la migration des notices et leur enrichissement à partir de sources de données externes. L'objectif principal de notre système est de concilier le besoin de flexibilité dans la conception des futurs modèles de bases de connaissances des institutions avec la nécessité d'avoir un outil opérationnel pour transformer des catalogues de manière automatique. Nous présentons les caractéristiques de notre solution ainsi que des résultats préliminaires d'expérimentations dans des contextes réels et industriels. L'objectif principal de ces travaux est de faciliter la réalisation de nouvelles solutions informatiques, dans la communauté documentaire, qui soient en phase avec les perspectives et objectifs scientifiques de cette communauté et aussi avec les enjeux concrets des professionnels du domaine.