Laboratoire d'InfoRmatique en Images et Systèmes d'information
UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon
Etant donné l’évolution de la notion de texte et la croissance continue des informations textuelles et numériques, de multiples natures, qui sont disponibles en ligne, un des challenges importants pour les linguistes et les analystes de l’information, afin de pouvoir formuler des hypothèses et de valider des modèles, est d’exploiter des outils efficaces pour l’analyse textuelle, capables de s’adapter à des volumes importants de données hétérogènes, changeantes et souvent et de nature distribuée. Nous nous proposons dans cet exposé de présenter de nouvelles méthodes statistiques qui s’inscrivent dans ce cadre, mais qui peuvent également étendre leur champ d’application au contexte plus général de données numériques dynamiques.
Les mesures les plus couramment utilisées pour l’analyse textuelle sont des mesures distributionnelles qui reposent généralement sur l’entropie ou sur la métrique du Chi2, ou encore des mesures vectorielles, comme la distance euclidienne ou la corrélation cosinus. Nous avons montré dans plusieurs cadres différents, comme dans celui du projet QUAERO, que ces approches présentaient de fortes limitations dans le cas du traitement de données très déséquilibrées, hétérogènes et très fortement multidimensionnelles, comme c’est très souvent le cas pour les données textuelles. Nous avons récemment proposé une mesure alternative basée sur la maximisation des traits qui n’a pas ces inconvénients. Le principe de cette mesure est de définir une fonction de compromis entre la généralité et discrimination en se basant à la fois sur les propriétés des données qui sont spécifiques à chaque groupe, issus d’un processus de regroupement, et celles qui sont partagés entre les groupes. L’un des avantages-clés de cette mesure est qu’elle est opérationnelle en mode incrémental, aussi bien dans le cadre du clustering (classification non supervisée) que dans celui de la catégorisation traditionnelle. Nous avons montré qu’elle permettait de résoudre très efficacement des problèmes multidimensionnels très complexes liés à l’analyse non supervisée de données textuelles et linguistiques, comme le suivi de sujets de recherche changeant au cours du temps (projet IST PROMTECH) ou la classification automatique des verbes du français. Nous avons également montré qu’elle pouvait facilement être exploitée dans l’analyse discriminante traditionnelle, fréquemment utilisée en linguistique, pour la catégorisation de textes et la stylométrie, ou encore, pour l’indexation automatique ou la synthèse de textes, avec des performances de loin supérieures aux méthodes conventionnelles. D’une manière plus générale, cette technique qui s’affranchit de l’exploitation des paramètres peut être considérée comme une méthode puissante de sélection de variables et de ré-échantillonnage de données ou d’analyse de flux dans n’importe quel contexte numérique.
Nous présenterons dans cet exposé les principes généraux de la mesure de maximisation des traits et nous reviendrons sur ses diverses applications à succès dans les cadres supervisés et non supervisés, en comparant ses performances avec celles des méthodes de l’état de l’art sur des données de référence. Nous montrerons les avantages supplémentaires liés à son intégration dans une approche flexible basée sur les points de vue multiples et sur le raisonnement bayésien non supervisé. A titre de perspective, nous discuterons finalement de son intérêt pour la caractérisation des sujets et des acteurs-clés dans les réseaux sociaux, ainsi que pour la caractérisation de leur dynamique.