Identifiant du document |
lyon2.2006.erray_w_notice |
Code de l'institution |
lyon2 |
Année |
2006 |
Auteurs |
ERRAY Walid |
Titre |
Extensions et nouvelles approches en Extraction des Connaissances à partir des Données — Réduction unidimensionnelle et bidimensionnelle d'un tableau numérique. Arbres de décision et Introduction de coûts en apprentissage. Sélection de variables. |
Titre autres langues |
en |
Extensions and new approaches in knowledge discovery from data |
|
Membres du jury |
ZIGHED Djamel Abdelkader --- RITSCHARD Gilbert --- BENNANI Younès --- KUNTZ Pascale --- POULET François |
Directeurs de thèses |
ZIGHED Djamel Abdelkader |
Diplome |
Doctorat Nouveau Régime |
Etablissement |
Université Lumière Lyon 2 |
Ecole Doctorale |
Informatique et information pour la société |
Factulté |
Faculté des Sciences Economiques et de Gestion |
Discipline |
Informatique |
Date de soutenance |
2006-07-17 |
Type de document |
Thèse de Doctorat Nouveau Régime |
Résumés |
fr |
Plusieurs méthodes, qui s'inscrivent dans le cadre de l'extraction des connaissances à partir des données, ont été proposées. Dans cette thèse, nous étudions l'extraction des connaissances à partir de grandes bases de données et les nombreux défis qu'elle présente : Améliorer la structuration des données, Réaliser une fouille de données, Faciliter l'exploitation de données de plus en plus volumineuses en améliorant la qualité de l'espace de représentation. La réduction d'un tableau numérique peut être assimiler, selon le cadre, à une discrétisation, à une recherche de partition d'une variable, à une recherche de bi-partition de deux phénomène, à une classification non supervisée ou à une classification croisée. Ces aspects de la réduction permettent d'améliorer ou de détecter des structures dans les données. Les arbres de décision et l'introduction de coûts en apprentissage permettent d'obtenir une fouille de données efficace et adaptée. De son côté, la sélection de variables permet d'améliorer la qualité des données. Ce rapport décrit des extensions et nouvelles approches liées à ces problématiques. Nous présentons la méthode FaUR qui permet de faire une réduction unidimensionnelle d'un tableau numérique avec une complexité réduite. Des extensions de FaUR sont proposées afin d'avoir des méthodes de réduction bidimensionnelles. Ces méthodes de réduction bidimensionnelles peuvent être utilisées dans le cadre des arbres de décisions. Cette méthode propose une généralisation des arbres de décisions. Enfin, lors d'une étude de la base de données clientèle France Telecom, nous abordons les méthodes de sélection de variables qui permettent d’améliorer la qualité des données. |
en |
Many methods of Knowledge Discovery from Data were proposed. In this thesis, we study the knowledge Discovery from large databases. The reduction of a numerical table can be assimilated, according to the framework, with a discretization, a search of the best partition of a variable, a search of the best bipartition, a clustering or a biclustering. These aspects of the reduction make it possible to improve or detect structures in the data. The decision trees and the cost sensitive learning make it possible to obtain an effective and adapted knowledge discovery. On its side, the features selction methods makes it possible to improve the quality of data. This report describes extensions and new approaches related to these problems. We present the FaUR method which makes it possible to make a unidimensional reduction of a numerical table with a reduced complexity. Extensions of FaUR are proposed in order to have two-dimensional reduction methods. These two-dimensional reduction methods can be used for decision trees. Thus, we propose a generalization of the decision trees called Arbogodaï. finally, we study the France Telecom customers database, and we use features selections methods to improve quality of the data. |
|
Mots-clés |
fr |
ECD; partitionnement; discrétisation; bi-partitionnement; arbres de décision; coût de mauvaise classification en apprentissage; sélection variables |
en |
KDD; clustering; discretization; biclustering; decision trees; cost sensitive learning; feature selection |
|
Editeur |
CyberDocs |
Format |
text/xml |
Langue |
fr |
Copyright |
Copyright ERRAY Walid et Université Lumière - Lyon 2 - 2006.Ce document est protégé en vertu de la loi du droit d'auteur. |
Diffusion |
[notice] |
Identifier |
http://theses.univ-lyon2.fr/documents/lyon2/2006/erray_w_notice |
Extent |
11816 |