Résumés |
fr |
Les travaux constituant cette dissertation concernent la classification non supervisée. Cette problématique, commune à de multiples domaines (et ainsi connue sous diverses acception : apprentissage/classification non supervisé(e) en reconnaissance de formes, taxonomie en sciences de la vie, typologie en sciences humaines), est ici envisagée selon la perspective Ingénierie des Connaissances et plus spécifiquement dans le cadre de son intégration au sein du processus d'Extraction de Connaissances à partir de Données (ECD).D'une part, nos travaux participent à l'amélioration du processus de classification non supervisée, et ce, selon divers axes propres ou non à l'ECD (coût calculatoire et utilisabilité des méthodes, formes et distribution des données traitées, forme des connaissances extraites, sélection de variables pour l'apprentissage non supervisé) mais aussi à l'évaluation de la qualité d'un processus de classification non supervisée (estimation de la validité des résultats issus du processus). D'autre part ces travaux visent à illustrer le lien très étroit unissant apprentissage non supervisé et apprentissage supervisé et à montrer l'intérêt d'une interaction entre ces deux types de processus. Concrètement, ces divers problèmes sont abordés et présentés au travers d'une nouvelle méthode de classification non supervisée, de deux nouveaux indices et d'une méthodologie dédiés à l'évaluation/Comparaison de la validité de classification non supervisée, de méthodes de sélection de variables pour l'apprentissage non supervisé et l'apprentissage supervisé, de plusieurs méthodes pour l'agrégation de classification non supervisée. |
en |
This dissertation deals with clustering. This problem, which is common to many fields (and thus may be found under different names such as: unsupervised learning in pattern recognition, taxonomy in life sciences, typology in human sciences), is considered here through Knowledge Engineering perspective. More specifically, we consider clustering as an integrated step of a Knowledge Discovery in Databases (KDD) process. One the one hand, our work contributes to clustering process enhancement according to several axis (computational cost and usability of clustering algorithms, type and distribution of treated data, materialization of extracted knowledge, feature selection for clustering) but also contributes to Clustering Quality Checking (Clustering Validity Checking). On the other hand, our work aims at illustrating the link between supervised and unsupervised learning and showing that the interaction between these two kind of learning is largely profitable. These problems are treated through the presentation of a new clustering method, as well as two new indices and a methodology dedicated to clustering validity comparison/assesment, two new methods for feature selection (in supervised learning and clustering contexts), and finally several methods for clustering combinations. |
|