Nous définissons le processus d’étiquetage de textes comme l’ensemble des opérations qui permettent de passer d’un texte brut, exempt d’informations linguistiques, à une séquence d’unités élémentaires lexicales (les lemmes) assorties d’étiquettes morpho-syntaxiques34. Cette définition implique successivement le choix de l’unité élémentaire de segmentation, le processus de segmentation lui-même, la lemmatisation des unités et l’association des informations linguistiques aux lemmes.
Prenons l’exemple de la segmentation de la phrase suivante : (.سيذهب محمّد علي إلى المسجد) = (« Mohamed Ali ira à la mosquée. »), qui pourra aboutir à la suite d’unités (U1, U2, U3, U4, U5, U6), dans laquelle chaque Ui correspond à une unité répertoriée, définie par un ensemble d’informations linguistiques :
On parle aussi de corpus arborés, lorsque les unités élémentaires du texte sont munies d’arbres syntaxiques.