4.2.3 Le processus de segmentation des textes

Au-delà de la diversité des choix théoriques possibles, la tâche informatique de segmentation du texte en unités morphologiques nécessite la mise en place d’algorithmes qui obéissent grosso modo au même principe. On part d’un texte écrit, on repère les mots graphiques et on essaie, soit de les découper soit de les associer à d’autres mots voisins, de façon à ce que chaque segment correspond à une unité répertoriée dans le système (entrée du lexique).

Le processus de segmentation semi-automatique d’un texte est composé de trois phases :

a) Repérage des mots graphiques : Le repérage des mots graphiques dans les textes arabes n’est pas délicat36. Les mots sont séparés par des blancs ou par des signes de ponctuation.

b) Analyse des mots graphiques : Une fois que la liste des mots graphiques a été répertoriée, on segmente chaque mot en ses différentes unités (proclitique(s) + mot minimal + enclitique(s)). Si le mot graphique présente plusieurs solutions de segmentation, nous demandons l’avis de l’expert linguiste qui supervise le processus.

c) Traitement des unités discontinues : Bien que les unités complexes (noms composés, locutions, formes figées, etc.) ne nous semblent pas très nombreuses dans les textes arabes37, on est obligé de les traiter à chaque cycle du processus d’étiquetage. Chaque unité répertoriée fait l’objet d’une recherche parmi les entrées de la liste des unités complexes. Si elle y figure, on vérifie la présence des éléments de l’unité complexe dans son contexte avoisinant. Si le processus de recherche réussit, l’unité est répertoriée comme une unité complexe. A la fin de cette étape, nous obtenons une suite d’unités séparées par des barres obliques. La figure (4-2), est obtenue à partir de la segmentation du texte de la figure (4-1).

Notes
36.

Dans les langues latines, un certain nombre de caractères fonctionnent tantôt comme séparateurs de mots tantôt comme composants de mots. C’est le cas du trait d’union ou de l’apostrophe.

37.

Les unités complexes occupent une place importante en français. On estime au cinquième d’un texte la surface qu’elles couvrent.