Laboratoire d'InfoRmatique en Images et Systèmes d'information
UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon
Le jury sera composé de :
En espérant vous voir nombreuses et nombreux, Bilal BERJAWI
Résumé de la thèse
Les services de géolocalisation (LBS) sont impliqués dans de nombreuses applications pour fournir des informations géospatiales pertinentes basées sur une position ou une adresse géographique. La quantité de données géospatiales disponible augmente constamment et constitue des sources d'informations précieuses pour enrichir les applications LBS. Cependant, ces données géospatiales sont souvent incohérentes et contradictoires d'une source à l'autre. Aussi, pensons-nous que l'intégration de données géospatiales à partir de plusieurs sources peut améliorer la qualité de l'information offerte aux utilisateurs.
Dans cette thèse, nous nous intéresserons plus spécifiquement aux données représentant les points d'intérêt (POIs) que les touristes peuvent obtenir grâce à des applications LBS. Techniquement, un POI est représenté par une entité géospatiale qui décrit ses informations terminologiques et spatiales. La récupération, l'alignement et la fusion de ces entités géospatiales mènent à plusieurs défis. Nous nous focalisons principalement sur trois principaux défis : (i) traiter les différents schémas et structures des entités, (ii) détecter et fusionner les entités correspondantes issues de multiples sources et (iii) tenir compte de l'incertitude liée aux entités intégrées et proposer leur représentation dans les applications LBS.
Tout d'abord, nous présentons un aperçu technique qui met en évidence les méthodes utilisées par les actuels fournisseurs LBS pour partager leurs POIs ainsi que leurs limites. Ensuite, nous définissons une taxonomie de différences et d'incohérences observées entre les entités qui représentent les POIs. Cette taxonomie permet de modéliser et de comprendre comment les données peuvent différer d'une source à l'autre, ce qui nous aide à étudier comment nous devrions les intégrer. En se basant sur cette taxonomie, nous présentons PABench, un benchmark pour l'alignement des entités géospatiales. PABench peut fournir une évaluation précise des différents aspects de la qualité des approches d'alignement d'entités géospatiales et également faciliter la compréhension de leurs capacités et faiblesses quant à l'intégration géospatiale.
En ce qui concerne l'intégration des données, nous nous concentrons sur deux _étapes : l'alignement d'entités et la fusion d'entités. Nous proposons l'approche Global Similarity pour l'alignement des entités géospatiales qui utilise à la fois des informations spatiales et terminologiques pour détecter les entités correspondantes. Au préalable notre approche consiste à utiliser une méthode de blocage spatial pour réduire le nombre d'entités potentiellement correspondantes. Ensuite, les entités groupées sont comparées en utilisant des mesures de similarité afin de détecter les paires correspondantes. Pour les attributs spatiaux, nous utilisons une mesure que nous avons définie et comparée _a d'autres mesures existantes. Pour les attributs terminologiques, nous utilisons des mesures de similarité issues de la littérature que nous avons sélectionnées selon le type de l'attribut. Une fois les entités correspondantes détectées, un algorithme de fusion de données est mis en œuvre pour fusionner les entités correspondantes et pour estimer l'incertitude des valeurs choisies. L'incertitude sera ensuite utilisée pour informer les utilisateurs de l'exactitude des informations qu'ils reçoivent.
Enfin, nous avons étudié la visualisation d'entités fusionnées et de l'incertitude dans des cartes interactives. Nous utilisons des tests cognitifs pour déterminer les variables visuelles à utiliser et les informations à représenter directement et les informations à représenter à la demande. Nous montrons la faisabilité et l'intérêt de notre étude en développant un prototype LBS multifournisseurs et en évaluant notre proposition pour les utilisateurs potentiels.