3.2.3 Conclusion

Il nous paraît évident que représenter les données morphologiques d’une manière déclarative, est le moyen le plus adéquat pour développer et maintenir des algorithmes d’analyse et de génération morphologique, même s’ils sont parfois moins performants que les analyseurs procéduraux.

Le programme de PITRAT décrit ci-dessus est restreint aux seules formes base+suffixe. Pour analyser un mot graphique en arabe, on doit par conséquent l’étendre pour intégrer les autres composantes du mot graphique arabe (proclitique(s), préfixe et enclitique(s)).

Néanmoins, le seul recours aux listes des morphèmes ne permet pas de reconnaître certaines formes de l’arabe écrit. En effet, lors du processus de synthèse, certains morphèmes sont assimilés ou changent de forme graphique lorsqu’ils sont associés à d’autres morphèmes.

L’exemple le plus fréquent est celui de la hamza instable qui change de forme lorsqu’elle est suivie de certains morphèmes. Par exemple, la forme (يَقْرَآنِ : YaQR#Ni) « ils (les deux) lisent » est générée à partir du préfixe (يَ : Ya), de la base (قْرَأ : Qra? ) et du suffixe (َانِ : âNi). Cette forme devrait normalement être générée en (يَقْرَأَانِ : YaQRa?âNi)*, mais par application d'une règle de transformation, la hamza (أ : ?) se transforme en (آ : #) lorsqu’elle est suivie de (َا: â). C'est uniquement la forme erronée (يَقْرَأَانِ : YaQRa?âNi)* qui pourrait être directement analysée par la simple consultation des listes des préfixes, bases et suffixes.

Pour résoudre ce problème, on peut, à la manière de WINOGRAD, utiliser une procédure de remplacement automatique des (آ : #) par des (أَا : ). Malheureusement, l'application de cette procédure ne pourrait pas être généralisée à toutes les formes. Par exemple, la forme (يَتَآلَفَانِ : YaTa#LaFâNi) « ils se lient d’amitié ou d’amour» qui est générée à partir du préfixe : (يَ : Ya),de la base (تَآلَف : Ta#LaF) et du suffixe (َانِ : âNi), ne doit pas être transformée en (يَتَأَالَفَانِ : YaTa?âLaFâNi)* auquel cas la base ne pourrait pas être analysée. D’autres formes comme (آكُلُ : #KuKu) « je mange » qui est générée à partir du préfixe (أَ : ?a), la base (أْكُل : ?KuL) et le suffixe (ُ : u), doit subir une nouvelle règle de conversion qui transforme la graphie (آ : #) en (أَأْ : ?a?), afin de pouvoir retrouver le préfixe et la base dans les listes des morphèmes du dictionnaire.

On rencontre souvent ce genre de problème surtout lorsque la racine du mot graphique est malade (معتلّ) ou irrégulière (مهموز أو مضاعف). De par la fréquence de ces mots dans les textes arabes, toutes ces règles d’exceptions doivent être recensées et être minutieusement traitées. Dans la section suivante, nous présenterons l'analyseur du mot graphique arabe que nous avons développé en montrant comment nous avons pu contourner les problèmes cités ci-dessus.