Les portails Lyon 2 : Intranet - Portail Etudiant - www
Entrepôt de textes : de l'intégration à la modélisation multidimensionnelle de données textuell... par AKNOUCHE Rachid - 2014 - Université Lumière Lyon 2

Métadonnées du document

Identifiant du document lyon2.2014.aknouche_r
Code de l'institution lyon2
Année 2014
Auteurs AKNOUCHE Rachid
Titre Entrepôt de textes : de l'intégration à la modélisation multidimensionnelle de données textuelles
Titre autres langues
en Text Warehouses : From the integration to the multidimensional modeling of textual data
Membres du jury GENSEL JÉRÔME --- BOUSSAID OMAR --- ESPINASSE BERNARD --- BOUGHANEM MOHAD --- BENTAYEB FADILA --- ZIMANYI ESTEBAN
Directeurs de thèses BOUSSAID OMAR --- BENTAYEB FADILA
Diplome Doctorat Nouveau Régime
Etablissement Université Lumière Lyon 2
Ecole Doctorale Informatique et mathématiques
Factulté Faculté des Sciences Economiques et de Gestion
Discipline Informatique
Date de soutenance 2014-04-26
Type de document Thèse de Doctorat Nouveau Régime
Résumés
fr d'entreposage des données textuelles. L'intérêt porté à ce type de données est motivé par le fait qu'elles ne peuvent être intégrées et entreposées par l'application de simples techniques employées dans les systèmes décisionnels actuels. Pour aborder cette problématique, nous avons proposé une démarche pour la construction d'entrepôts de textes. Elle couvre les principales phases d'un processus classique d'entreposage des données et utilise de nouvelles méthodes adaptées aux données textuelles. Dans ces travaux de thèse, nous nous sommes focalisés sur les deux premières phases qui sont l'intégration des données textuelles et leur modélisation multidimensionnelle. Pour mettre en place une solution d'intégration de ce type de données, nous avons eu recours aux techniques de recherche d'information (RI) et du traitement automatique du langage naturel (TALN). Pour cela, nous avons conçu un processus d'ETL (Extract-Transform-Load) adapté aux données textuelles. Il s'agit d'un framework d'intégration, nommé ETL-Text, qui permet de déployer différentes tâches d'extraction, de filtrage et de transformation des données textuelles originelles sous une forme leur permettant d'être entreposées. Certaines de ces tâches sont réalisées dans une approche, baptisée RICSH (Recherche d'information contextuelle par segmentation thématique de documents), de prétraitement et de recherche de données textuelles. D'autre part, l'organisation des données textuelles à des fins d'analyse est effectuée selon TWM (Text Warehouse Modelling), un nouveau modèle multidimensionnel adapté à ce type de données. Celui-ci étend le modèle en constellation classique pour prendre en charge la représentation des textes dans un environnement multidimensionnel. Dans TWM, il est défini une dimension sémantique conçue pour structurer les thèmes des documents et pour hiérarchiser les concepts sémantiques. Pour cela, TWM est adossé à une source sémantique externe, Wikipédia, en l'occurrence, pour traiter la partie sémantique du modèle. De plus, nous avons développé WikiCat, un outil pour alimenter la dimension sémantique de TWM avec des descripteurs sémantiques issus de Wikipédia. Ces deux dernières contributions complètent le framework ETL-Text pour constituer le dispositif d'entreposage des données textuelles. Pour valider nos différentes contributions, nous avons réalisé, en plus des travaux d'implémentation, une étude expérimentale pour chacune de nos propositions. Face au phénomène des données massives, nous avons développé dans le cadre d'une étude de cas des algorithmes de parallélisation des traitements en utilisant le paradigme MapReduce que nous avons testés dans l'environnement Hadoop.
en The work, presented in this thesis, aims to propose solutions to the problems of textual data warehousing. The interest in the textual data is motivated by the fact that they cannot be integrated and warehoused by using the traditional applications and the current techniques of decision-making systems. In order to overcome this problem, we proposed a text warehouses approach which covers the main phases of a data warehousing process adapted to textual data. We focused specifically on the integration of textual data and their multidimensional modeling. For the textual data integration, we used information retrieval (IR) techniques and automatic natural language processing (NLP). Thus, we proposed an integration framework, called ETL-Text which is an ETL (Extract- Transform- Load) process suitable for textual data. The ETL-Text performs the extracting, filtering and transforming tasks of the original textual data in a form allowing them to be warehoused. Some of these tasks are performed in our RICSH approach (Contextual information retrieval by topics segmentation of documents) for pretreatment and textual data search. On the other hand, the organization of textual data for the analysis is carried out by our proposed TWM (Text Warehouse Modelling). It is a new multidimensional model suitable for textual data. It extends the classical constellation model to support the representation of textual data in a multidimensional environment. TWM includes a semantic dimension defined for structuring documents and topics by organizing the semantic concepts into a hierarchy. Also, we depend on a Wikipedia, as an external semantic source, to achieve the semantic part of the model. Furthermore, we developed WikiCat, which is a tool permit to feed the TWM semantic dimension with semantics descriptors from Wikipedia. These last two contributions complement the ETL-Text framework to establish the text warehouse device. To validate the different contributions, we performed, besides the implementation works, an experimental study for each model. For the emergence of large data, we developed, as part of a case study, a parallel processing algorithms using the MapReduce paradigm tested in the Apache Hadoop environment.
Mots-clés
fr : Intégration des données textuelles - Entrepôts de textes - ETL-Text- Modélisation multidimensionnelle des données textuelle- RICSH- TWM- Recherche d'information- MapReduce - Enrichissement de documents- Wikipédia
en Integration of textual data- Text Warehouses - ETL-Text - RICSH - Text Warehouse Model - TWM - Information Retrieval - MapReduce - Enrichment of textual documents - Wikipedia
Editeur CyberDocs
Format text/xml
Langue fr
Copyright Copyright - AKNOUCHE Rachid - Université Lyon 2 - 2014
Diffusion [intranet]
Identifier http://theses.univ-lyon2.fr/documents/lyon2/2014/aknouche_r
Extent 20266