Laboratoire d'InfoRmatique en Images et Systèmes d'information
UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon
Comme le titre pourrait le suggérer, l’objectif principal de cette thèse est de fournir une meilleure compréhension de la tâche de la découverte de sous-groupes à travers la théorie de l’ordre. La découverte de sous-groupes (Subgroup Discovery - SD) est la tâche automatique dont le but est la découverte d’hypothèses intéressantes dans les bases de données. Autrement dit, étant donnée une base de donnée, l’espace de recherche de toutes les hypothèses que l’analyste voudra tester ainsi qu’un moyen formel pour évaluer la qualité de ces hypothèses ; la tâche automatique de la découverte de sous-groupe s’efforce de trouver les meilleurs hypothèses quant à ces trois paramètres. Afin d’élaborer des algorithmes efficaces et efficients pour cette tâche, il est important de comprendre les propriétés des espaces de recherche d’une part et les propriétés de la mesure de qualité d’autre part. Dans cette thèse, nous étendons l’état de l’art par: (i) fournir une vue unifiée sur les espaces d’hypothèses derrière la tâche de découverte de sous-groupes en utilisant la théorie de l’ordre, (ii) proposer l’espace d’hypothèses de conjonctions d’inégalités linéaires dans les bases de données numériques ainsi que différents algorithmes permettant de les énumérer et (iii) proposer un algorithme anytime - fournit progressivement des résultats - pour la tâche particulière de fouille de sous-groupe discriminants dans les bases de données numériques. Ce dernier fournit des garanties sur la qualité des sous-groupes extraits même si l’algorithme est interrompu.
Abstract : As the title of this dissertation may suggest, the aim of this thesis is to provide an order-theoretic point of view on the task of subgroup discovery. Subgroup discovery is the automatic task of discovering interesting hypotheses in databases. That is, given a database, the hypothesis space the analyst wants to explore and a formal way of how the analyst gauges the quality of the hypotheses (e.g. a quality measure); the automated task of subgroup discovery aims to extract the interesting hypothesis w.r.t. these parameters. In order to elaborate fast and efficient algorithms for subgroup discovery, one should understand the underlying properties of the hypothesis space on the one hand and the properties of its quality measure on the other. In this thesis, we extend the state-of-the-art by: (i) providing a unified view of the hypotheses space behind subgroup discovery using the well-founded mathematical tool of order theory, (ii) proposing the new hypothesis space of conjunction of linear inequalities in numerical databases and the algorithms enumerating its elements and (iii) proposing an anytime algorithm for discriminative subgroup discovery on numerical datasets providing guarantees upon interruption.