Résumés |
fr |
Notre travail s'intéresse à l'application de méthodes issues de l'apprentissage automatique à la catégorisation de textes multilingues. Il comporte deux parties.Une première partie donne une présentation générale de la catégorisation de textes :- définitions, objectifs généraux et domaines d'application.- adaptation des algorithmes d'apprentissage aux spécificités des textes;- La méthode de sélection de termes multivariée.- Le codage en n-grammes :- les avantages et inconvénients des n-grammes, en particulier dans le contexte multilingue,- le lien entre les n-grammes et les mots.- les méthodes d'apprentissage et la mesure de leurs performances.- Les tests réalisés pour comparer les algorithmes d'apprentissage sur les textes.La deuxième partie s'intéresse à l'apprentissage de textes multilingues en comparant deux chaînes possibles:- Chaîne 1 : reconnaissance de la langue, puis utilisation de règles de classement construites pour chaque langue ; il faut alors avoir construit un modèle adapté à chacune des langues.- Chaîne 2 : utilisation de la traduction automatique dans le processus de catégorisation ; cette solution permet d'utiliser un seul ensemble de règles de classement. Ici, il y a deux options:- 1. construire un modèle unique sur l'ensemble d'apprentissage d'une langue donnée ; ensuite, pour classer un nouveau texte, (i) reconnaissance de sa langue, (ii) traduction de ce texte vers la langue d'apprentissage, (iii) application du modèle de prédiction sur le texte traduit ; ici la phase de traduction n'intervient que dans la phase de classement.- 2. Faire intervenir la traduction automatique dès la phase d'apprentissage : à partir d'un ensemble étiqueté de textes en différentes langues, traduction automatique de tous ces textes vers une langue cible et apprentissage sur cet ensemble de textes traduits ; ensuite, pour classer un nouveau texte, la procédure est la même.Nous testons nos algorithmes sur des corpus multilingues. |
en |
A user is overwhelmed by the amount of information made available to him; his problem is to find what he needs among what is offered to him.Many obstacles impede his access to the useful information. One such hinderance is processing multilingual information; this problem is inherent to Internet and grows with the Web naturally moving towards multilingualism.Text categorization assigns a class to a free text on the basis of information contained in the text. When done by hand, the process is long and costly. Automating text classification is of interest to many scientific circles.My doctorate manuscript comprises two parts.- A general presentation of classification of unilingual texts is given in the first part:- definitions; general objectives and areas of application;- adapting learning algorithms to texts; vector representation of a text; choice of the information unit: word, lemma, phrase, n-grams, choice of associated numerical values: presence/absence, frequencies, mutual information,…;- learning methods and performance measures. - Coding with n-grams:- advantages and disadvantages of n-grams, especially with multilingual texts,- n-grams and words.- Comparing learning algorithms on unilingual texts: "k-nearest neighbors", support vector machines (SVM) and radial base functions (RBF).- The second part is concerned with learning on multilingual texts by comparing two possible sequences:- Recognizing the language, followed by classification rules appropriate for each language (example, three languages: French, English, German).- Recognizing the language, automatic translation then learning on the translated text. The second sequence uses a single set of rules but depends on the quality of the translator.Our algorithms are tested on a corpus of multilingual texts; the processing sequences can thus be assessed and compared. |
|