a-) Indexation des textes

Cette phase n’est autre que le processus d'étiquetage des textes arabes que nous avons présenté au début de ce chapitre. Chaque texte du corpus est segmenté, lemmatisé et enrichi par des informations linguistiques associées aux lemmes.

Le résultat de l'indexation46 est une suite ordonnée d'enregistrements. Chaque enregistrement est formé du mot, de son lemme, de ses différentes propriétés morpho-syntaxiques et de son contexte d'apparition (le processus de segmentation permettant de bien cerner les frontières des phrases). Les différents champs du fichier résultant constituent des index à partir desquels, on pourrait effectuer des requêtes. Ainsi, on pourra générer des activités appropriées à partir des résultats de requêtes formulées avec une propriété morphologique ou syntaxique par exemple.

Notes
46.

La forme du résultat est un fichier indexé mais aurait pu être une entité dans une base de données.