Les portails Lyon 2 : Intranet - Portail Etudiant - www
Contributions in Knowledge Discovery from Textual Data par EL SAYED Ahmad - 2008 - Université Lumière Lyon 2

Métadonnées du document

Identifiant du document lyon2.2008.el-sayed_a
Code de l'institution lyon2
Année 2008
Auteurs EL SAYED Ahmad
Titre Contributions in Knowledge Discovery from Textual Data
Titre autres langues
en Contributions in Knowledge Discovery from Textual Data
Membres du jury ZIGHED Abdelkader --- ZAIANE Osmar --- SIMONET Michel --- KODRATOFF Yves --- LAMURE Michel --- ROCHE Christophe
Directeurs de thèses ZIGHED Abdelkader
Diplome Doctorat Nouveau Régime
Etablissement Université Lumière Lyon 2
Ecole Doctorale Informatique et information pour la société
Factulté Faculté des Sciences économiques et de Gestion
Discipline Informatique
Date de soutenance 2008-04-28
Type de document Thèse de Doctorat Nouveau Régime
Résumés
fr Cette thèse se focalise sur deux problématiques clés liées à la fouille de texte, à savoir : la classification et l'acquisition des connaissances. En dépit de leur relative maturité, ces deux problématiques présentent encore certains défis majeurs qui doivent être soulevés.En premier lieu, pour la classification, un défi bien connu et non résolu consiste à effectuer des classifications avec un minimum de paramètres en entrée. Une façon naturelle de parvenir à cette fin, est d'utiliser les indices de validité dans le processus de classification. Bien qu'ils soient d'un grand intérêt, les indices de validité n'ont pas été largement explorés dans la littérature, en particulier lorsqu'il s'agit de données de grande dimension, comme c'est le cas des données textuelles. Ainsi, concernant ce volet, nous proposons trois principales contributions : (1) une large étude expérimentale comparant huit indices de validité, (2) une méthode basée sur le contexte améliorant l'utilisation des indices de validité en tant que critère d'arrêt, (3) I-CBC, une version incrémentale de l'algorithme flou CBC (classification par comités). Ces contributions ont été validées sur deux applications du monde réel : la classification de documents et de mots.En deuxième lieu, pour l’acquisition des connaissances, nous nous sommes intéressés à des problématiques importantes liées à la construction d’ontologies à partir de texte : le faible rappel des approches basées sur les patrons, la faible précision de l’approche distributionnelle, la dépendance au contexte et l’évolution des ontologies. Nous proposons ainsi, un nouveau cadre pour l’apprentissage d’ontologies à partir du texte. Notre proposition est une approche hybride qui combine les avantages suivants par rapport aux autres approches :(1) la capacité de capturer avec plus de flexibilité des relations dans le texte, (2) des concepts qui traduisent mieux le contexte du corpus considéré, (3) des décisions plus fiables prises durant le processus d’apprentissage à travers la considération et l’inclusion de plusieursrelations sémantiques, et, enfin, (4) l’évolution de l’ontologie apprise sans aucun effort manuel considérable, après son inclusion au coeurd’un système de recherche d’information.
en This dissertation focuses on two key issues in text mining, namely unsupervised learning and knowledge acquisition. In spite of their relative maturity, both issues still present some major challenges that need to be addressed.First, for unsupervised learning, a well-known, unresolved challenge is to perform clustering with minimal input parameters. One natural way to reach this is to involve validity indices in the clustering process. Although of great interest, validity indices were not extensively explored in the literature, especially when dealing with high-dimensional data like text. Hence, we make three main contributions: (1) an experimental study comparing extensively 8 validity indices; (2) a context-aware method enhancing validity indices usage as stopping criteria; (3) I-CBC, an Incremental version of the CBC (Clustering By Committee) algorithm. Contributions were validated in two real-world applications: document and word clustering.Second, for knowledge acquisition, we face major issues related to ontology learning from text: low recall of the pattern-based approach, low precision of the distributional approach, context-dependency, and ontology evolution. Thus, we propose a new framework for taxonomy learning from text. The proposal is a hybrid approach which has the following advantages over the other approaches: (1) ability to capture more “flexibly” relations in text; (2) concepts better reflecting the context of the target corpus; (3) more reliable decisions during the learning process; (4) and finally evolution of the learned taxonomy without any manual effort, after its incorporation in a core of an information retrieval system.
Mots-clés
fr classification; ontologies; fouille de texte; fouille de données; apprentissage d'ontologies; acquisition de connaissances
en clustering; ontologies; text mining; data mining; ontology learning; knowledge acquisition
Editeur CyberDocs
Format text/xml
Langue fr
Copyright Copyright EL SAYED Ahmad et Université Lumière - Lyon 2 - 2008.Ce document est protégé en vertu de la loi du droit d'auteur.
Diffusion [intranet]
Identifier http://theses.univ-lyon2.fr/documents/lyon2/2008/el-sayed_a
Extent 23727