A-) Injection des unités lexicales arabes

Comme nous l'avons déjà décrit, les unités monolingues du dictionnaire PROLEMAA ont été saisies dans deux tableaux différents : un premier tableau pour les unités verbales et un second pour les unités nominales et adjectivales. L'injection de ce dernier tableau doit précéder le premier, puisque les unités nominales constituent les sujets et les arguments des schémas syntaxiques associés aux unités verbales.

Le tableau de saisie des noms et des adjectifs comprend quatre colonnes (figure 6-2) et respecte certaines conventions. C'est la valeur prise par le spécificateur de la troisième colonne qui nous permet de distinguer les propriétés du nom ou de l'adjectif en cours :

  • Lorsque cette valeur est "مصدر", l'unité lexicale est un nom verbal lexicalisé, qui figure dans la partie verbale de DIINAR. Le verbe associé est identifié dans DIINAR.1 à partir des indications sur sa racine (première colonne du tableau) et la relation "Verbe-Nom verbal" dans la base. Les informations relatives au verbe sont ainsi récupérées et associées aux nouvelles informations sémantiques.
  • Lorsque le spécificateur n'a pas de valeur, l'unité lexicale est un substantif. Les informations morphologiques relatives à cette unité et ses relations avec les autres unités lexicales sont directement récupérées à partir de la partie nominale de DIINAR.1 et associées aux nouvelles informations sémantiques. Deux cas particuliers peuvent aussi se présenter : Lorsque la valeur du spécificateur est "مؤنّث", il s'agit d'un nom féminin et lorsque cette valeur est "جمع", il s'agit d'un nom pluriel. Dans ces deux cas, la signification de l'unité est déduite à partir de la signification du nom masculin singulier qui est préalablement injecté.
  • Lorsque cette valeur est "نسبة", l'unité lexicale est un adjectif de relation. Les informations linguistiques relatives à cette unité sont directement récupérées à partir de la partie nominale de DIINAR.1 et associées aux nouvelles informations sémantiques.
  • Lorsque cette valeur est "صفة", l'unité lexicale est une forme ressemblante (صفة مشبّهة), qui figure dans la partie verbale de DIINAR. Son verbe est identifié à partir des informations sur sa racine et la relation "Verbe - Forme ressemblante" dans DIINAR.1. Les informations sur son verbe sont ainsi récupérées et associées à sa signification.
  • Lorsque le spécificateur est "مشتقّ", l'unité lexicale est un participe actif (اسم فاعل) ou un participe passif (اسم مفعول), qui figure dans la partie verbale de DIINAR. Son verbe est identifié à partir des informations sur sa racine et les relations "Verbe – Participe actif" et "Verbe – Participe passif"dans DIINAR. L'information sur l'identité du verbe est ainsi récupérée et associée à sa signification.

Malheureusement, le programme n'a pas réussi à identifier une partie de ces unités dans DIINAR.1. Les unités non reconnues étaient mal orthographiées ou ne figuraient pas dans DIINAR.1 (les adjectifs de l'intensif (أفعال المبالغة) par exemple n'ont pas été traités dans DIINAR.1). Ces unités ont été, saisies en aval à l'aide de l'interface de saisie et de mise à jour des données de PROLEMAA.

Le tableau de saisie des unités verbales comprend quant à lui neuf colonnes (figure 6-1), correspondant aux informations permettant d'identifier l'unité lexicale verbale en cours : la racine, la forme conjuguée, la liste des noms verbaux, la liste des autres déverbaux, le sujet et les arguments et la signification. C'est la signification du verbe qui constitue désormais l'unité lexicale en entrée et non plus le verbe avec l'ensemble de ses significations comme c'était le cas dans DIINAR.1.

Le programme d'injection automatique doit repérer le verbe dans la base, à partir des indications sur sa racine et sa forme conjuguée, et associer les déverbaux directement aux significations correspondantes du verbe. Il doit ensuite identifier le sujet et les arguments du schéma syntaxique du verbe à partir de la partie nominale de la base. Il doit enfin associer la signification du verbe à l'unité en entrée.

Dans les tableaux de saisie, la syntaxe avec laquelle étaient définis les arguments n'était pas toujours respectée55. Cette syntaxe qui était au départ du projet insuffisamment définie, nous a aussi posé des difficultés pour dégager les propriétés de quelques arguments (i.e. les arguments indirects qui sont précédés par les prépositions (بِ / لِ) ne peuvent pas être distingués des arguments simples commençant par les mêmes caractères). Nous étions obligés à chaque fois d'ôter ces prépositions et de vérifier si l'argument correspondait à un argument valide dans la base de données nominale ou pas. Le même problème a été rencontré avec le coordonnant (و : Wa) où pour les arguments composés de plusieurs éléments, nous ne pouvions pas différencier un argument précédé par ce coordinateur et un argument composé dont le second membre commence par un (و : Wa).

Ce genre de problème a été évité par la suite pour les derniers tableaux de saisie. Nous avons défini une syntaxe qui exige le placement d'une barre oblique (/) entre les mots-outils et les arguments indirects et une virgule (,) entre les éléments des arguments composés.

Notes
55.

Dans un schéma qui devait respecter cette syntaxe : [préposition + Argument d’ordre 1 [+ (و) + Argument d’ordre 2] … [+ (و) +Argument d’ordre n]], nous trouvons parfois des (أَوْ) ?aW à la place de (وَ) Wa pour séparer les différentes classes de l'argument.