4.2.1 Définition et exemple

Nous définissons le processus d’étiquetage de textes comme l’ensemble des opérations qui permettent de passer d’un texte brut, exempt d’informations linguistiques, à une séquence d’unités élémentaires lexicales (les lemmes) assorties d’étiquettes morpho-syntaxiques34. Cette définition implique successivement le choix de l’unité élémentaire de segmentation, le processus de segmentation lui-même, la lemmatisation des unités et l’association des informations linguistiques aux lemmes.

Prenons l’exemple de la segmentation de la phrase suivante : (.سيذهب محمّد علي إلى المسجد) = (« Mohamed Ali ira à la mosquée. »), qui pourra aboutir à la suite d’unités (U1, U2, U3, U4, U5, U6), dans laquelle chaque Ui correspond à une unité répertoriée, définie par un ensemble d’informations linguistiques :

  • U 1 : segment : ( س )
    • forme lemmatisée : (س)
    • informations morpho-syntaxiques : marque du futur
  • U 2 : segment : ( يذهب )
    • forme lemmatisée : (ذَهَبَ - يَذهَبُْ)
    • informations morpho-syntaxiques : verbe, inaccompli, indicatif, 3ème personne, singulier, masculin, constructions : intransitif ; transitif avec un complément introduit par la préposition « إلى »  ; transitif avec deux compléments, le premier par « بِ », le deuxième par « إلى » ; etc.
    • informations sémantiques : sujet : humain/non humain, concret, animé
      objet : humain/non humain, concret, animé/ non animé
  • U 3 : segment : (محمّد علي)
    • forme lemmatisée : محمّد علي
    • informations morpho-syntaxiques : nom propre composé, masculin, singulier
    • informations sémantiques : humain, concret, animé.
  • U 4 : segment : ( إلى )
    • forme lemmatisée : (إلى)
    • informations morpho-syntaxiques : préposition, suivie d’un nom, d’un mot outil ou d’une phrase commençant par « أن ».
  • U 5 : segment : ( المسجد )
    • forme lemmatisée : مسجد
    • informations morpho-syntaxiques : nom, masculin, singulier, défini
    • informations sémantiques : non humain, concret, non animé.
  • U 6 : segment : (.)
    • forme lemmatisée : .
    • informations morpho-syntaxiques : ponctuation, délimiteur de phrases.

Notes
34.

On parle aussi de corpus arborés, lorsque les unités élémentaires du texte sont munies d’arbres syntaxiques.