7.2.1. Diversité lexicale

La mesure de la diversité lexicale est souvent utilisée pour caractériser des types de textes et elle est particulièrement invoquée dans la recherche des différences linguistiques liées au mode de production oral/écrit. Ainsi M. Fayol (1997:15) souligne que "À l'écrit, la moindre contrainte temporelle et l'absence de destinataire présent autoriserait une sélection plus lente et plus réfléchie des mots, ainsi qu'une recherche d'explication afin de pallier le caractère décontextualisé de la production". Nos corpus se présentent bien évidemment comme n'ayant de l'écrit que la propriété matérielle. Nous nous attendons donc plus probablement à observer des mesures de diversité qui soient proches de celles obtenues à partir de corpus oraux. Cependant, lorsqu'on fait artificiellement produire des narrations orales à des locuteurs de laboratoire on observe des variations liées au mode de production. Les dimensions mises en avant par Fayol (ibid.) sont la contrainte temporelle et la présence/absence d'un destinataire contribuant au caractère décontextualisé de la production. La communication IRC présente un degré de décontextualisation bien moindre que l'écrit idéalisé.

La diversité, ou richesse lexicale selon la terminologie de Muller (1992:115-117), est définie par le nombre de vocables d'un texte, c'est-à-dire le nombre de mots différents. Pour un texte, la mesure est donc d'établir un rapport entre le nombre de vocables (types) et le nombre de mots (tokens). Cependant ce calcul est fortement influencé par la taille de échantillon considéré. Si l'étendue d'un texte dans l'analyse des fréquences est neutralisée par la normalisation telle que la présente Biber (1988:75), il n'en est rien pour les mesures de rapport entre type et occurrences, ce qui a été ignoré longtemps dans les études de psychologie. Afin de neutraliser l'influence de la longueur du texte, Biber (1988:224-225) propose de calculer la diversité lexicale en comptant le nombre d'items lexicaux différents qui apparaissent dans les 400 premiers mots d'un texte. Cette mesure fastidieuse dans son application, outre qu'elle ne présente pas de pertinence pour nos corpus à moins de l'appliquer sur les unités conversationnelles établies sur le thème (cf. chapitre 6), n'a pas été retenue pour cette étude. Nous lui avons préféré celle de Herdan (1966) ²⁴¹ , qui utilise le rapport entre le logarithme du nombre de types et le logarithme du nombre de tokens.

Tableau (7-4) – Indices de diversité lexicale
corpus types tokens ratio herdan
F1 580 1630 0.356 0,860
F2 248 877 0.283 0,814
F3 1032 3506 0.294 0,850
F4 770 2378 0.324 0,855
F5 937 3008 0.312 0,854
F6 1068 3469 0.308 0,855
F7 2405 11010 0.218 0,837
F8 1436 6478 0.222 0,828
P1 178 312 0.571 0,902
P2 755 2216 0.341 0,860
P3 1080 3553 0.304 0,854
P4 486 1282 0.379 0,864
P5 342 789 0.433 0,875
P6 862 3154 0.273 0,839
P7 547 1455 0.376 0,866
P8 517 1312 0.394 0,870
P9 633 1558 0.406 0,877
6568 47987 0,137 0,815

Cette mesure montre sur l'ensemble de nos corpus un indice de diversité lexicale assez fort puisque tendant vers 1 tous les mots sont différents. Cet indice conforte notre impression générale selon laquelle les thématiques de conversation à travers le corpus sont très diverses et peu redondantes. On pourrait s'attendre, ce dispositif de communication supprimant un certain nombre des indices que comporte une situation de communication synchrone habituelle, à un certain type de redondance, permettant par exemple d'expliciter à quelle intervention initiative se rattache une intervention réactive. Cela n'est que très peu présent dans nos corpus, ces indications se réalisant essentiellement par le biais de vocatifs.

Tableau (7-4) – Indices de diversité lexicale
corpus	types	tokens	ratio	herdan
F1	580	1630	0.356	0,860
F2	248	877	0.283	0,814
F3	1032	3506	0.294	0,850
F4	770	2378	0.324	0,855
F5	937	3008	0.312	0,854
F6	1068	3469	0.308	0,855
F7	2405	11010	0.218	0,837
F8	1436	6478	0.222	0,828
P1	178	312	0.571	0,902
P2	755	2216	0.341	0,860
P3	1080	3553	0.304	0,854
P4	486	1282	0.379	0,864
P5	342	789	0.433	0,875
P6	862	3154	0.273	0,839
P7	547	1455	0.376	0,866
P8	517	1312	0.394	0,870
P9	633	1558	0.406	0,877
	6568	47987	0,137	0,815

Notes

241.

Cité dans Richards & Malvern, (1999) Type-token and type-type measures of vocabulary diversity and lexical style : an annotated bibliography, The University of Reading http://www.rdg.ac.uk/~ehsrichb/home1.html, révision du 16/06/1999 – Herdan, G, The Advanced Theory of Language as Choice and Chance, Springer Verlag, Berlin, 1966, pp. 75-77.