4.2.4 Lemmatisation des unités segmentées
Le processus de lemmatisation consiste à regrouper toutes les unités segmentées sous une forme unique : le lemme. Lorsque l’analyseur propose plusieurs solutions pour la même unité segmentée, l’expert doit trancher pour l’une des solutions proposées. Par exemple, l’analyseur propose pour l’unité « قال » trois solutions différentes :
- « قال » : forme nominale correspondant au lemme : (singulier « قَال » - pluriel « قِيلاَن ») = (« le dire »).
- « قال » : forme conjuguée correspondant au lemme verbal « قَالَ - يَقِيلُ » = (« faire la sieste »)
- « قال » : forme conjuguée correspondant à un lemme verbal « قَالَ - يَقُولُ » = (« dire »).
L’expert, en se référant au contexte de la phrase « قال لي ليلة أخرى » = (« Dans une autre nuit, il m’a dit ») doit évidemment choisir la dernière solution (figure 4-3).
Ainsi, chaque unité segmentée est remplacée par son lemme :
- Un verbe est remplacé par sa forme à l'accompli et à l'inaccompli à la 3ème personne du singulier masculin.
- Un déverbal est remplacé par sa forme au singulier masculin ou féminin.
- Un nom est remplacé par sa forme qui est généralement au masculin singulier, à laquelle nous ajoutons parfois le pluriel pour nuancer le sens.
- Un mot outil fléchi est ramené à son noyau au masculin singulier.
La figure (4-4) ci-dessous montre le même texte (figure 4-1) après le processus de lemmatisation.