3.1 Introduction

La majorité des applications qui mettent en jeu du texte, notamment celles relevant de la syntaxe, verraient leurs performances s’améliorer par l’intégration de meilleurs systèmes d’analyse morphologique.

Un analyseur morphologique est communément défini, comme un programme qui permet de reconnaître un même mot sous les diverses formes qu’il peut prendre dans les phrases. Pour chaque forme trouvée, il doit isoler ses différents éléments et déduire les traits morphologiques et syntaxiques hors contexte qui leurs sont associés.

Théoriquement, on peut s’en passer de l’analyseur morphologique en construisant un lexique contenant l’ensemble des formes fléchies et en associant à chaque forme ses traits. Cette méthode permet un accès direct à tous les mots à traiter. Toutefois, il est clair que ces données ne peuvent être fournies « à la main » et qu’on doit les générer à partir d’un dictionnaire des formes canoniques et des règles de flexion. Par conséquent, l’analyseur doit être de toute façon considéré. Dans le cas où l’on souhaiterait utiliser un lexique limité aux formes canoniques, il faudra mettre en œuvre des mécanismes pour ramener les formes fléchies aux formes stockées.

Deux points permettent de préciser les différences entre les deux méthodes : le stockage des traits et la vitesse de reconnaissance G. Sabah (1989, pp.22). Un dictionnaire comportant toutes les formes possibles implique que les traits soient attachés à toutes les formes fléchies d’un même mot alors qu’un dictionnaire réduit aux formes canoniques permet de ne les stocker qu’une seule fois. Le gain de place mémoire est compensé par la perte de temps au moment où est cherchée la forme canonique.

De nos jours, l’augmentation des mémoires d’ordinateur fait préférer généralement la méthode du dictionnaire des formes fléchies. Cependant, ce choix nous semble non raisonnable pour la langue arabe et ce pour au moins deux raisons : l’arabe est une langue fortement agglutinée et les textes peuvent être non voyellés, partiellement voyellés ou complètement voyellés. Si l'on désire analyser la totalité des formes fléchies par la simple consultation d’un dictionnaire, il faudra générer un lexique dont la taille est de l’ordre de centaines de millions de mots.

Toutes ces considérations, notamment celles relatives aux propriétés morphologiques de l’arabe, nous ont amené à adopter une approche qui se situe à mi-chemin entre la simple consultation d’un dictionnaire de toutes les formes fléchies et une analyse complètement formelle.

Nous essaierons dans ce chapitre d’expliquer la méthode d’analyse que nous adopterons en mentionnant les différentes ressources (lexiques) qui seront utilisées et la façon dont ils sont générés. D’abord, nous examinerons les principales méthodes d’analyse morphologique et nous verrons si elles peuvent s'appliquer à la langue arabe. Nous décrirons ensuite à travers des exemples, les différentes étapes du processus d’analyse retenu. Nous décrirons enfin l’environnement informatique qui permet de génération des différents lexiques utilisés par l’analyseur à partir de la base de données lexicale DIINAR.