4.2.2. Lemmatisation

La lemmatisation d'un corpus doit permettre un certain nombre d'analyses linguistiques. Elle autorise essentiellement le repérage de catégories morphosyntaxiques qui sont utiles à la fois pour les analyses du lexique (chapitre 7) et de la syntaxe (chapitre 8).

Le terme technique de lemmatisation désigne, selon Brunet (2000:1)

‘"L'opération de regroupement qui rassemble les formes différentes appartenant au même vocable – ce que font précisément les auteurs de dictionnaires quand ils établissent leur nomenclature". ’

Cette méthode utilisée notamment en statistique lexicale 93 nécessite qu'on s'interroge sur les unités en question. On distingue en effet différents rangs d'analyse en fonction des unités traitées. La lemmatisation est un procédé utilisé en lexicométrie pour des besoins d'analyse sémantique. Elle ne s'occupe ni de la description des phrases, ni des unités de rang supérieur. Se présentent donc comme candidats au statut d'unité, le mot et le morphème.

Le mot a longtemps été considéré comme un donné, une évidence, si on examine la chaîne parlée 94 , les mots sont difficilement délimitables. Le mot est avant tout une unité graphique : chaîne de caractères séparée des autres par des espaces ou ponctuations. Mais la graphie elle-même pêche, les mots composés ne répondant pas à la définition graphique qu'on pourrait naïvement donner du mot. On propose parfois une distinction terminologique ramenant le mot à son statut d'unité graphique, et créant de nouveaux termes tels que "lexie", "synapsie", "synthème",... pour désigner l'unité lexicale 95 . Le morphème en tant que plus petite unité linguistique à deux faces, se présente comme un meilleur candidat au statut d'unité lexicale que le mot, unité complexe, unité significative non minimale, analysable en unités significatives plus petites. L'objection formulée à l'encontre de l'utilisation du morphème comme unité lexicale de base, outre qu'il s'accorde bien moins à l'intuition du locuteur, est que la composition que forme un mot n'est pas toujours le résultat de la simple addition des sèmes des morphèmes composants. Charles Muller (1992:3) rappelle que "le terme de mots, en linguistique, n'a pas de définition satisfaisante, et cette entité, assez claire pour le sens commun, est scientifiquement suspecte". Il précise que "rien n'interdit de prendre d'autres bases que le mot ou le vocable, si l'on en trouve de moins suspectes, mais que toute option de ce genre comporte des difficultés spécifiques sur le plan pratique" 96 . Il convient donc de proposer une définition pour le mot qui fixe clairement l'objet envisagé et que Muller donne comme "unité graphique, séparée des unités voisines par un blanc ou une ponctuation ; elle se retrouve certes dans le langage oral dont la graphie n'est qu'une représentation seconde ; mais la tradition graphique, pour les idiomes qui en ont une fait apparaître en général un découpage de la phrase (la "première articulation") qui dans le langage oral est moins conscient." 97 Cette première approximation est immédiatement remise en cause par des phénomènes indiscutables qui sont qu'une unité graphique peut correspondre à plusieurs unités de lexique et inversement qu'une unité de lexique peut se composer de plusieurs unités graphiques. Un ensemble de règles doit être établi permettant de décider de la délimitation des unités : la norme lexicologique. Ce qui importe selon Muller 98 , c'est moins la qualité scientifique des décisions prises que la cohérence et l'application systématique des règles. L'ensemble des questions qui doivent être posées pour établir la norme lexicologique – formes contractes, formes composées, cas de soudure graphique ou trait d'union, sigles et abréviations – doit donc tenir compte de ces deux principes.

La lemmatisation convient en lexicométrie dans la mesure où les accidents de la morphologie flexionnelle ne modifient pas de façon fondamentale le sens des unités dans le texte sauf rares exceptions de formes telles que lettres, forces, règles, bagues,… En revanche, si l'objet d'étude est la syntaxe ou la morphologie, il est nécessaire de disposer de la forme occurrente du mot, ou d'une lemmatisation augmentée d'un codage de la flexion. Cette option permet non seulement d'avoir accès dans des corpus à des possibilités d'étude de la fréquence d'unités lexicales mais aussi, ramenant à la même forme des flexions différentes parce que conditionnées par la classe d'un mot, de s'intéresser à la syntaxe et à la morphologie.

La lemmatisation au sens strict du terme, si elle prend en compte les homographes du type il est à l' est de Paris ; Sophie a été fatiguée cet été  ; ne résout pas le problème des lemmes homographes du type la pie vole ; ce sont des jumelles .

Selon ce qu'on se propose d'étudier, les exigences de lemmatisation sont différentes. La forme la plus simple consiste à ramener la forme occurrente à sa forme de base. Pour notre part, nous l'avons accompagnée d'un codage de la flexion et de l'étiquette de catégorie grammaticale. Cette opération a été réalisée par des procédures semi-automatiques avec contrôle, selon le système proposé pour Childes 99 et les spécifications de Parisse & Lenormand (2000) auxquelles nous avons apporté quelques aménagements. Elle permet d'obtenir des données pour l'analyse du lexique, de la morphologie et de la syntaxe. Nous préciserons les choix auxquels nous avons opéré aux chapitres correspondants aux analyses mentionnées, soit les chapitres 7 et 8.

Notes
93.

Et dans nombre de domaines de Traitement Automatique du Langage Naturel (TALN), cf. Carré et al. (1991).

94.

La forme linéaire du langage dérive de son caractère vocal puisque les énoncés s'inscrivent dans le temps, les sons se succèdent.

95.

Cf. Rey (1977:15).

96.

Muller (1992:11)

97.

Muller (1992: 4-5).

98.

Muller (1992).

99.

Cf. MacWhinney (1995).