Equipe BD
Equipe BD
Laboratoire d'InfoRmatique en Images et Systèmes d'information
UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon

You are here

Big data on-line analytics : évolution ou révolution ? Application aux données textuelles

Qui: 
Fadila Bentayeb
Quand: 
Monday, April 27, 2015 - 13:00 to 14:00
Où: 
INSA de Lyon, bât. Blaise Pascal, Salle du Liris

L’émergence de grands volumes de données, imposée par les grands acteurs du Web, nécessite de nouveaux modèles de gestion de données et de nouvelles architectures de stockage et de traitement sécurisés capables de trouver une information rapidement dans une grande masse de données, appelée big data. La variété, la volumétrie, la vélocité et la vitesse des big data ont fait émerger de nouveaux verrous scientifiques. Je m’intéresse particulièrement à l’utilisation des SGBD non relationnels pour construire des entrepôts de données en colonnes qui sont mieux adaptés à l’analyse OLAP (On-Line Analytical Processing) et au développement de nouveaux opérateurs OLAP appropriés au stockage en colonnes dans un environnement type cloud. D’autre part, les technologies d’entreposage et d’analyse en ligne de données ont largement fait leurs preuves pour l’analyse de données structurées, mais elles sont inadaptées pour l’analyse de données textuelles, faute d’outils et de méthodes appropriés. En s'appuyant sur quelques exemples concrets, je présenterai différentes mesures textuelles (indicateurs) pour construire des cubes OLAP pertinents basés sur des dimensions d’analyse contextuelles. Les attributs de chaque dimension sémantique sont regroupés dans une hiérarchie de concepts, extraite d’une ontologie de domaine utilisée comme une ressource externe. Je présenterai en particulier une mesure d’analyse textuelle qui s’appuie sur un modèle vectoriel adapté à l’analyse OLAP et une technique de propagation de pertinence. Je définirai également un nouvel opérateur OLAP qui permet d’agréger les données textuelles dans un environnement d’analyse multidimensionnelle. Je finirai ma présentation en donnant quelques nouvelles pistes de recherche sur l’OLAP à la demande dans un environnement de cloud computing.