1. Repères méthodologiques

1.1. La lexicométrie

1.1.1. L’unité de base : la forme graphique

La lexicométrie, ou ‘“méthodologie de l’analyse mesurée des lexiques”’ 79, se donne pour objet une statistique à partir de fréquences de vocabulaire. Son entreprise vise donc le comptage de “mots” tels qu’ils affleurent à la surface d’un texte :

‘Approche vouée à délinéariser les textes politiques [mais pas seulement], la lexicométrie suppose qu’un corpus est soumis à des contraintes (...) qui ne sont pas accessibles à la conscience et n’apparaissent qu’à travers une lecture capable de désarticuler la surface discursive.80

La difficulté majeure rencontrée par cette méthodologie provient du fait qu’il est pour ainsi dire impossible de définir avec précision ce qu’est un “mot”. C’est à ce titre d’ailleurs qu’elle a essuyé les critiques - pour ne pas dire plus - de la part de certains linguistes. Ce que ceux-ci lui ont reproché, ce n’est pas tant la difficulté à cerner avec précision le “mot” - les linguistes eux-mêmes connaissent des divergences sur la question - que d’opérer un glissement préjudiciable vers une identité formelle entraînant des “mixtes sémantiques”81. Car la lexicométrie, en tout cas celle pratiquée par Maurice Tournier et les chercheurs du laboratoire “Lexicométrie et textes politiques”, part en effet d’une option “textualiste” :

‘Il est sans pertinence d’additionner les occurrences du même mot quand on les considère comme des contenus de sens. On ne peut additionner que des occurrences dont on reporte à plus tard les problèmes de sens. On les additionne seulement parce qu’ils ont la même forme. Voilà le premier principe de la lexicométrie : prendre les mots comme des formes graphiques.82

Nous voyons bien qu’à ce stade un premier glissement est intervenu, du mot à la forme. Encore faut-il s’entendre sur la forme à découper dans le flux que représente tout discours, oral comme écrit du reste. La forme (ou “item”) sera entendue comme ‘“toute concaténation minimale de caractères non-délimiteurs, portant de l’information et arrêtée à gauche et à droite par des séparateurs définis”’ 83. Ces séparateurs, délimiteurs par définition, sont le plus souvent les “blancs” qui permettent précisément à tout texte écrit d’être déchiffré, ce qu’un agglomérat de signes soudés les uns aux autres rendrait impossible. Ce peut être encore les ponctuations disséminées dans l’ensemble d’une production écrite84.

Il est une autre pratique de comptage du vocabulaire d’un texte antérieure à l’option “formaliste”, et dont les tenants ont été en France Pierre Guiraud et Charles Muller. Ce dernier a eu l’occasion de marquer son désaccord avec ceux qui prônent une mesure statistique depuis la forme graphique dans la préface d’un ouvrage défendant cette pratique85. Charles Muller oppose aux “formalistes” des objections d’ordre linguistique. Sa préface s’intitule du reste “De la lemmatisation”. Il faut entendre par là que Charles Muller, à qui l’on doit entre autres des mesures effectuées dans les années 50 sur les pièces de théâtre de Corneille, est favorable au regroupement sous une forme canonique des occurrences d’un texte étudié. Dans cette perspective, les formes verbales sont ramenées à l’infinitif, les substantifs au singulier, les adjectifs au masculin singulier, les formes élidées à la forme sans élision, etc. Il y a en fait dans la démarche poursuivie le souci de soumettre tous les hétérographes (y compris les homographes après “désambiguïsation”) à une même unité de langue. Ce qui nécessite de “réécrire” le texte de départ86. Mais cette façon de procéder n’est pas exempte de difficulté, en particulier vis-à-vis de formes qui préexistent au discours et sont donc assemblées en langue (ainsi d’une locution verbale comme “faire peur” ou d’un composé nominal comme “chemin de fer”).

Maurice Mouillaud, qui a tenté de dresser un parallèle entre l’analyse de contenu et l’analyse des lexiques, n’a pas manqué de pointer la différence majeure qui existe entre les deux méthodes. Tandis que dans l’analyse de contenu, le plan d’inscription qui se substitue à l’inscription originelle relève du choix arbitraire de l’analyste, celui-ci justifie son absence - l’auteur parle d’“abstinence” - dans le cadre d’une mesure lexicométrique en descendant, pour ce faire, au seuil où c’est la forme même de son matériau qui lui procure des unités isotopiques. Cette “descente” jusqu’au niveau graphique modifie la valeur de ce qui est réellement mesuré, au point que Maurice Mouillaud conclue à un “contenu de traces” :

‘Pour que l’analyse se représente elle-même comme occupant une place épistémologique qui serait aux antipodes d’une analyse de contenu (puisque l’analyste n’a besoin que d’un “oeil” qui regarde les traces graphiques au lieu du puissant appareil de sens d’un domaine de connaissances), il a fallu qu’il décide d’inscrire le discours comme une trace : c’est-à-dire qu’il le fasse successivement descendre de l’ordre propre aux signifiés à l’isotopie des signifiants, et, une nouvelle fois, de l’ordre des signifiants à un ordre purement graphique ; le contenu prélevé est un contenu de traces (c’est en tant que traces que les objets du discours deviennent commutables entre eux).87

Nous sommes d’autant plus proche d’une telle position que l’on peut estimer que les fragments qui sont découpés dans notre corpus ressortissent, en tant que termes et non en tant que mots ou vocables, à des traces88. Il nous faut maintenant évoquer les aménagements que nous avons souhaité apporter à notre texte avant de le soumettre au programme de l’ordinateur.

Notes
79.

Maurice Mouillaud, Formes et stratégies des énoncés de presse, Université René Descartes-Paris V, thèse dactyl., oct. 1979, p. 48.

80.

Dominique Maingueneau, L’analyse du discours. Introduction aux lectures de l’archive, Paris, Hachette, 1994 (2ème éd.), p. 48.

81.

Maurice Tournier entend par là un regroupement de deux “mots” n’ayant sémantiquement rien à voir (cf. par exemple la forme “vole” qui peut renvoyer à un oiseau ou à un voleur). M. Tournier, Lexicometria, Lisboa, Universidade Aberta, 1993, p. 43.

82.

Maurice Tournier, op. cit., p. 36.

83.

Michel Demonet et alii, Des tracts en mai 1968, Paris, Armand Colin et FNSP, 1975, p. 21.

84.

En fait, les ponctuations délimitent mais sont également comptées et indexées comme n’importe quelle autre forme.

85.

Cf. Pierre Lafon, Dépouillements et statistiques en lexicométrie, Genève-Paris, Slatkine-Champion, 1984, 217 p. Pierre Lafon, qui fait partie du laboratoire de Saint-Cloud, est à l’origine d’un programme qui permet de mesurer l’indice de “rafalité” des formes, autrement dit leur rythme d’apparition dans un discours, politique en particulier.

86.

C’est ainsi que “J’aimerais gagné au Loto” est transformé en “Je aimer gagner à le Loto”.

87.

Maurice Mouillaud, op. cit., pp. 51-52. Par isotopie, cet auteur entend désigner le caractère uniforme du plan de l’analyse par rapport aux unités de texte qui s’inscrivent, en relief pour ainsi dire, dans un site originel.

88.

“Terme est un générique qui désigne toute unité textuelle obtenue systématiquement, forme, segment répété de plusieurs formes contiguës, paire ou couple en cooccurrence, locution phraséologique, etc.” (Simone Bonnafous et Maurice Tournier, “Analyse du discours, lexicométrie, communication et politique”, in Langages, 117, mars 1995, p. 69, note en bas de page. Ce sont les auteurs qui soulignent).