4.2.1 Définition et exemple
Nous définissons le processus d’étiquetage de textes comme l’ensemble des opérations qui permettent de passer d’un texte brut, exempt d’informations linguistiques, à une séquence d’unités élémentaires lexicales (les lemmes) assorties d’étiquettes morpho-syntaxiques34. Cette définition implique successivement le choix de l’unité élémentaire de segmentation, le processus de segmentation lui-même, la lemmatisation des unités et l’association des informations linguistiques aux lemmes.
Prenons l’exemple de la segmentation de la phrase suivante : (.سيذهب محمّد علي إلى المسجد) = (« Mohamed Ali ira à la mosquée. »), qui pourra aboutir à la suite d’unités (U1, U2, U3, U4, U5, U6), dans laquelle chaque Ui correspond à une unité répertoriée, définie par un ensemble d’informations linguistiques :
-
U
1
: segment : (
س
)
-
- forme lemmatisée : (س)
- informations morpho-syntaxiques : marque du futur
-
U
2
: segment : (
يذهب
)
-
-
forme lemmatisée : (ذَهَبَ - يَذهَبُْ)
-
informations morpho-syntaxiques :
verbe, inaccompli, indicatif, 3ème personne, singulier, masculin, constructions : intransitif ; transitif avec un complément introduit par la préposition « إلى » ; transitif avec deux compléments, le premier par « بِ », le deuxième par « إلى » ; etc.
-
informations sémantiques : sujet : humain/non humain, concret, animé
objet : humain/non humain, concret, animé/ non animé
-
U
3
: segment : (محمّد علي)
-
- forme lemmatisée : محمّد علي
- informations morpho-syntaxiques : nom propre composé, masculin, singulier
- informations sémantiques : humain, concret, animé.
-
U
4
: segment : (
إلى
)
-
- forme lemmatisée : (إلى)
- informations morpho-syntaxiques : préposition, suivie d’un nom, d’un mot outil ou d’une phrase commençant par « أن ».
-
U
5
: segment : (
المسجد
)
-
- forme lemmatisée : مسجد
- informations morpho-syntaxiques : nom, masculin, singulier, défini
- informations sémantiques : non humain, concret, non animé.
-
U
6
: segment : (.)
-
- forme lemmatisée : .
- informations morpho-syntaxiques : ponctuation, délimiteur de phrases.