3.2.2 Les analyseurs déclaratifs

Un analyseur déclaratif comme son nom l’indique reçoit de manière déclarative les données de la langue. Le programme est général et la mise à jour se fait plutôt au niveau des données. Un exemple d’analyseur déclaratif est celui de PITRAT dont on trouvera une description dans G. Sabah (1989, pp. 25-36) et qu’on détaillera dans cette section.

Constatant que la méthode de WINOGRAD, devient très complexe si on étend le domaine de la langue ou on passe à une autre langue, PITRAT a conçu un même analyseur général qui a été testé sur une dizaine de langues dont l’arabe.

Les données utilisées dans son programme sont constituées de trois types d’informations :

  • Le fichier des mots. Chaque entrée est formée du nom du mot, du nom de son modèle de conjugaison et de la suite ordonnée des bases qui seront utilisées pour générer les formes fléchies. Par exemple l’entrée (TENIR, VENIR, TIEN, TEN, TIENN, TIN, TÎN) indique que le verbe tenir suit la conjugaison qui s’appelle venir et utilisera les cinq racines tien, …
  • Le fichier des terminaisons. Sous un nom de terminaison, précisant la partie de la conjugaison considérée, on indique la liste des suffixes utiles. Par exemple, la ligne (VIP ; S, S, T, ONS, EZ, ENT) désigne les suffixes de certains verbes à l’indicatif présent. Ce fichier a une relation étroite avec le précédent puisque les terminaisons vont dépendre de la façon dont on aura défini les bases.
  • Le fichier des conjugaisons. Il indique les relations entre les bases et les terminaisons. Une entrée de ce fichier correspond à un nom de modèle de conjugaison (par exemple VENIR). La conjugaison est divisée en groupes identifiés par un nom de groupe, et dans chacun d’eux on indique le nom de terminaison et la séquence des numéros de bases correspondantes. Par exemple, l’entrée (Venir, IP, VIP, 1, 1, 1, 2, 2, 3 ; …) signifie que pour conjuguer un verbe à l’indicatif présent (IP), on utilise les terminaisons de VIP avec la première base (tien) pour les trois personnes du singulier, la deuxième base (ten) pour la première et la deuxième personne du pluriel et la troisième base (tienn) pour la troisième personne du pluriel.

Le processus d’analyse procède par des découpages successifs du mot en deux suites de chaînes de caractères. On regarde alors si la suite correspondant à la fin du mot est présente dans les terminaisons. Si elle y est, on recense les couples (nom de terminaison, rang) qu’on note (T, r) qui sont associés à la suite trouvée. Par exemple, si on analyse tenez, l’analyseur détectera la terminaison ez et lui trouvera associé le seul couple (VIP, 5), indiquant que cette finale est la cinquième de conjugaison des verbes à l’indicatif présent. On vérifie alors si le début du mot (ten pour l’exemple) correspond à une racine connue. L’analyseur déterminera alors les couples (Mot, Base) notés (M, B) formés du nom du mot de la base et de son rang dans le fichier des mots. Dans cet exemple, à partir de ten on trouvera (Tenir, 2), indiquant que la forme canonique du mot peut être TENIR et que la base TEN est la troisième dans le fichier des mots.

Une analyse est retenue lorsque la conjugaison associée au mot M (TENIR) dans le fichier des mots contient un groupe qui est associé à la suite de terminaisons trouvée T (VIP). On vérifie alors que le numéro de base de rang r (5) est bien R (2) dans le fichier des conjugaisons, ce qui est le cas pour notre exemple (Venir, IP, VIP, 1, 1, 1, 2, 2 , 3 ;…).

En continuant systématiquement le processus même après avoir trouvé une analyse, on construit toutes les analyses possibles.

De façon symétrique, à partir d’un mot M, d’un groupe G et d’un numéro n dans ce groupe, les données permettent de construire la forme fléchie : à partir de (Tenir, VIP, 5), on doit obtenir la forme Tenez, deuxième personne du pluriel de l’indicatif présent du verbe tenir.