4.2.2 L’unité de segmentation

Dans un processus de segmentation automatique, le choix des unités doit obéir à deux impératifs : la segmentation ne doit pas être trop difficile à effectuer, et les unités doivent être suffisamment cohérentes et significatives pour faciliter les traitements ultérieurs (Fuchs, 93).

Cette double contrainte se heurte à une série de phénomènes linguistiques35 : amalgames, flexions, dérivations, compositions, etc., qui conduisent à des obstacles lors de l’automatisation du processus.

Certains mots résultent, on le sait d’une séquence ou d’un amalgame de deux unités existantes. C’est le cas par exemple de ces expressions adverbiales (حينئذ / عندئذ / وقتئذ / ساعَتَئِذٍ) « = à ce moment-là » qui sont formées à partir de la particule (إذ) = (« car, puisque ») et d’une deuxième particule désignant le temps. Faut-il alors rétablir les deux unités (qui jouent chacune un rôle syntaxique spécifique) pour faciliter l’écriture des règles ultérieures ou les laisser dans une unique unité ? Dans la plupart des cas, il convient de répondre par la négative, les unités « composées » ayant un autre sens – au moins en partie – que celui de chacune des unités qui la composent.

Par ailleurs, on sait déjà que nombre de mots connaissent des phénomènes de flexion ou dérivation externe. Du fait de leur facilité de traitement due au caractère fermé de l’inventaire des affixes, leur analyse ne pose pas de problèmes. La question qui nous intéresse ici est celle du statut des désinences : dans la plupart des systèmes elles sont traitées comme une série d’attributs (de temps, de mode, de nombre, etc.) qui sont ajoutés à la forme lemmatisée, mais on peut aussi les considérer comme des unités morphologiques à part entière et traiter la forme fléchie comme une concaténation de plusieurs unités.

A ces difficultés, s’ajoutent celles relatives aux unités distribuées sur des séquences de plusieurs mots typographiques. C’est le cas des unités discontinues, comme les négations (لَنْ...أَبدًا / لَمْ...قطَُ) = (« ne…jamais ») ou (لا...سوى / لا...غير) = (« ne…que, seulement »). Doit-on les traiter comme une unité unique discontinue ou comme plusieurs unités, sachant que chaque mot peut se rencontrer en emploi autonome ?

Le même ordre de difficulté se retrouve dans le cas des mots composés (محمّد رسول اللّه صلّى اللّه عليه وسلّم) (واحدٌ وعشرون), des locutions et des formes figées. Les mots peuvent être associés comme ils peuvent rester autonomes.

De toutes ces considérations il ressort que le mot minimal, tel qu’il a été défini lors de l’analyse des mots graphiques, ne constitue pas un mauvais point de départ. La réalisation informatique sera ainsi facilitée puisque nous aurons recours principalement aux résultats de l’analyseur. Chaque mot minimal correspond à une unité du lexique et les informations correspondantes sont directement récupérées. Il faudrait néanmoins ajouter un traitement spécifique pour les unités discontinues.

Notes
35.

Nous nous contentons des phénomènes propres à la langue arabe. Certains phénomènes comme celui d’élision, ne sera pas cité (cf. Haddar, 2000).