4.1 Introduction

Dans ce chapitre, nous décrirons le fonctionnement de trois applications développées à partir de l'analyseur des mots graphiques arabes (cf. chapitre 3). Ces applications ont été réalisées essentiellement pour assister le processus de construction des ressources de l'environnement « AL-Mu c aLLiM ». Elles pourraient néanmoins servir ultérieurement à effectuer des études quantitatives et statistiques des faits langagiers de la langue à partir de différents corpus textuels.

Le titre de ce chapitre « traitements automatiques des textes » évoque généralement la conception d’applications capables de traiter de façon automatique des données linguistiques, c’est à dire des données exprimées dans une langue naturelle. Les traitements linguistiques complètement automatisés recourent généralement à des techniques statistiques ou probabilistes, mais ne permettent pas encore d’obtenir des résultats totalement corrects.

Dans le domaine de l’EIAO des langues, il est inadmissible d’utiliser des données qui peuvent être erronées. C’est pour cela, qu’une partie des applications développées sont semi-automatiques, c’est à dire qui font intervenir l’être humain dans l’exécution de certaines tâches lorsque les résultats sont équivoques.

D’autre part, le terme « texte » est souvent employé pour désigner un texte écrit. Il peut cependant désigner l’un quelconque des types des données linguistiques (textes écrits, dialogues, phrases, mots isolés, etc.) et prendre différentes formes (fichier texte, base de données, etc.). Les applications que nous avons réalisées, se baseront sur des objets d’entrée particuliers qui sont obtenus après une première phase d'indexation des textes bruts.

Ceci étant dit, nous entamerons ce chapitre par une description des différentes étapes du processus d’étiquetage semi-automatique des textes arabes bruts : segmentation, lemmatisation et association d’informations linguistiques aux lemmes. Nous verrons ensuite qu’à partir d’un texte étiqueté, nous pourrons réaliser des traitements complètement automatisés et obtenir des résultats précis. Nous nous intéresserons particulièrement à deux applications qui permettront la construction des principales ressources d’« AL-Mu c aLLiM » : la recherche de concordances et le calcul de fréquences des mots ou des unités lexicales.