4.2.1 Définition et exemple

Nous définissons le processus d’étiquetage de textes comme l’ensemble des opérations qui permettent de passer d’un texte brut, exempt d’informations linguistiques, à une séquence d’unités élémentaires lexicales (les lemmes) assorties d’étiquettes morpho-syntaxiques³⁴. Cette définition implique successivement le choix de l’unité élémentaire de segmentation, le processus de segmentation lui-même, la lemmatisation des unités et l’association des informations linguistiques aux lemmes.

Prenons l’exemple de la segmentation de la phrase suivante : (.سيذهب محمّد علي إلى المسجد) = (« Mohamed Ali ira à la mosquée. »), qui pourra aboutir à la suite d’unités (U₁, U₂, U₃, U₄, U₅, U₆), dans laquelle chaque U_i correspond à une unité répertoriée, définie par un ensemble d’informations linguistiques :

U ₁ : segment : ( س )

forme lemmatisée : (س)
informations morpho-syntaxiques : marque du futur

U ₂ : segment : ( يذهب )

forme lemmatisée : (ذَهَبَ - يَذهَبُْ)
informations morpho-syntaxiques : verbe, inaccompli, indicatif, 3ème personne, singulier, masculin, constructions : intransitif ; transitif avec un complément introduit par la préposition « إلى » ; transitif avec deux compléments, le premier par « بِ », le deuxième par « إلى » ; etc.
informations sémantiques : sujet : humain/non humain, concret, animé
objet : humain/non humain, concret, animé/ non animé

U ₃ : segment : (محمّد علي)

forme lemmatisée : محمّد علي
informations morpho-syntaxiques : nom propre composé, masculin, singulier
informations sémantiques : humain, concret, animé.

U ₄ : segment : ( إلى )

forme lemmatisée : (إلى)
informations morpho-syntaxiques : préposition, suivie d’un nom, d’un mot outil ou d’une phrase commençant par « أن ».

U ₅ : segment : ( المسجد )

forme lemmatisée : مسجد
informations morpho-syntaxiques : nom, masculin, singulier, défini
informations sémantiques : non humain, concret, non animé.

U ₆ : segment : (.)

forme lemmatisée : .
informations morpho-syntaxiques : ponctuation, délimiteur de phrases.

Notes

34.

On parle aussi de corpus arborés, lorsque les unités élémentaires du texte sont munies d’arbres syntaxiques.