A partir d'un premier travail de recensement des mots outils, nous avons dégagé une structure commune pour tous les mots outils. Chaque occurrence peut se décomposer en une suite ordonnée de : un à trois proclitique(s) (السوابق), d'un noyau (الأداة), d'un suffixe (اللاحق) et d'un enclitique (الضمير الملحق). A travers l'exemple de (فَكَأَيَّتَهُنَّ : #Fa+Ka+AYYaTu+HuNNa#), la figure (6-2) ci-dessous illustre ces différents morphèmes.
La modélisation linguistique, a ainsi adopté une structuration autour du noyau qui constitue l'entrée du dictionnaire, auquel pourrait s'ajouter l'ensemble des extensions cités ci-dessus. Afin de faciliter la recherche et la consultation du dictionnaire, nous avons tout d'abord organisé les entrées du dictionnaire. Nous avons, en effet, divisé cette importante masse de particules hétéroclites en trois grandes classes : les particules simples (حروف المعاني), les particules nominales (الأسماء الأدوات) et les particules verbales (الأفعال الجامدة).
Chaque classe a été à son tour subdivisée en des sous-classes plus fines selon des critères syntaxiques et sémantiques. La classe des particules simples ( حروف المعاني), a été divisée en trois sous-classes selon l'incidence syntaxique du mot outil sur son voisinage : les particules régissant uniquement les noms (الحروف المختصّة بالأسماء), les particules régissant uniquement les verbes (الحروف المختصّة بالأفعال ) et les particules régissant les noms et les verbes (الحروف المشتركة).
La sous-classe des particules régissant uniquement les noms regroupe les sous-classes des (حروف التنبيه), (حروف الجرّ), (حروف القسم), (حروف الاستثناء), (حروف النداء), (الحروف المشبّهة بالفعل), (حرفا المفاجأة), (حرفا التفصيل), (حرف الترجّي والإشفاق), (حرفا التشبيه) et (الحروف المشبّهة بِلي).
La sous-classe des particules régissant uniquement les verbes regroupe les sous-classes (حروف النصب), (حروف المصدريّة), (حروف الجزم), (حروف الشرط), (حروف التحضيض والتندي), (حروف الاستقبال), (حرف التوقّع), (حروف العَرْض).
La sous-classe des particules régissant les noms et les verbes regroupe quant à elle les sous-classes (حروف العطف), (حرفا الاستفهام), (حرفا التفسير), (حرفا الاستفتاح), (حروف النفي), (حروف الجواب), (حروف التعليل), (حروف الصلة), (حروف التمنّي), (حروف التوكيد).
La classe des particules nominales (الأسماء الأدوات) a été divisée en trois sous-classes : (أسماء الإشارة), (الظروف), (أسماء الاستفهام), (أسماء الشرط), (الأسماء الموصولة), (أسماء الأفعال), (أسماء الأصوات), (الكنايات), (الضمائر).
La classe des particules verbales (الأفعال الجامدة) a été divisée aussi en trois sous-classes : (أفعال جامدة على صيغة الماضي), (أفعال جامدة على صيغة المضارع), (أفعال جامدة على صيغة الأمر).
Nous avons ensuite défini les propriétés morphologiques et syntaxiques qui ont été associées aux entrées du dictionnaire. Bien qu'uniquement une petite partie des mots outils (principalement les démonstratifs) diffèrent en genre et en nombre, nous avons retenu ces deux propriétés pour l'ensemble des mots outils. Pour ceux n'ayant pas de genre et/ou de nombre, nous avons ajouté les possibilités «sans genre» = (لا جنس له) et «sans nombre» = (لا عدد له). Nous avons aussi retenu le trait qui détermine si le mot outil est figé (أداة مبنيّة) ou pas, c'est à dire s'il s'accorde avec les prépositions (حروف الجرّ) ou pas. Lorsque le mot outil n'est pas figé, comme par exemple l'interrogatif (أَيَُ : ?aYYu) = («quel»), il s'accorde avec les prépositions (i.e. "بِ : Bi", "لِ : Li") et se réalise avec forme différente (i.e. "أَيَِ : ?aYYi"). Par contre, les mots outils figés (i.e. le démonstratif "هَذَا : HaDâ") ne s'accordent pas avec les prépositions et gardent leur forme initiale.
Les autres traits retenus sont d'ordre syntaxique et sont relatifs au voisinage immédiat du mot outil. Ces traits signalent, d'une part, les mots outils qui marquent obligatoirement le début de la phrase (i.e. les interrogatifs "أَلاَ : ?aLâ" et "أَمَا : ?aMâ") et ceux qui peuvent se trouver au début de la phrase, et d'autre part, les catégories des mots qui peuvent suivre le mot outil : un nom, un verbe, un autre mot outil, une phrase débutant par “أن المصدريّة” = ?aN ou un signe de ponctuation marquant la fin d'une phrase (i.e. "نَعَمْ : Na c aM", "بَلَى : BaLaÿ"). Ces informations permettent de diminuer considérablement les ambiguïtés syntaxiques lors d'une analyse automatique.
Nous avons enfin recensé les affixes qui peuvent être suffixés au noyau du mot outil. Nous avons inventorié 21 suffixes et 40 pronoms compléments qui peuvent être suffixés aux mots outils. Les pronoms compléments ont été répartis sur trois vecteurs : Le premier vecteur contient la liste des pronoms compléments des verbes = (الضمائر المختصّة بالفعل), le second vecteur correspond à la liste des pronoms compléments des noms = (الضمائر المختصّة بالإسم) et le dernier vecteur correspond à la liste des pronoms compléments non-humains = (الضمائر غير العاقلة). Les deux premiers contiennent 18 pronoms correspondant aux différentes combinaisons du nombre (singulier, duel, pluriel), du genre (masculin, féminin) et de la personne (1ère, 2ème, 3ème personne), alors que le dernier vecteur ne contient que les 4 pronoms relatifs à la 3ème personne du singulier et du duel (au masculin et au féminin).
Il est à signaler que certains mots outils sont compatibles avec des pronoms appartenant à deux vecteurs différents. Nous avons finalement répertorié la liste des proclitiques27 qui peuvent être associés aux mots outils. Nous avons obtenu une liste de 15 morphèmes, qui peuvent se combiner entre eux pour former des proclitiques composés (doubles ou triples).
Cf. (Dichy, Hassoun, Mouelhi, Zaafrani, 2002).
Chaque proclitique est lui-même un mot outil simple formé d’un seul caractère.