1.2. UN PROBLÈME DE TAILLE

1.2.1. Le problème

Le calcul de cette mesure se heurte à un problème : l'indice de diversité lexicale est extrêmement sensible à la taille de l'échantillon. En effet, "on sait depuis longtemps que le rapport entre les deux données fondamentales, N et V, est inutilisable ; nous savons que f, qui exprime ce rapport, varie avec l'étendue du texte" (Muller, 1992 : 117). En effet, plus le texte est court et plus le nombre de mots qui le compose a de chances de concerner des mots différents. Au contraire, plus le texte est long, plus les probabilités de répétitions augmentent, avec, pour conséquence, une diminution du rapport de V sur N. Pour rendre compte de cette corrélation, considérons les restitutions

des sujets en fonction du texte et de l'âge des sujets :

Tableau 35 : Indice de diversité lexicale, écart-type et centile en fonction du texte et de l'âge des sujets (sans formule neutralisant la taille de l'échantillon).
Texte Âge Indice de diversité lexicale Écart-type Centile
10ème 90ème
PCR 6 ans 0,69 0,1 0 0,8
7 ans 0,54 0,05 0 0,6
8 ans 0,53 0,06 0 0,6
9 ans 0,54 0,05 0 0,6
10 ans 0,51 0,05 0 0,5
Adultes 0,53 0,08 0 0,6
DAN 6 ans 0,75 0,07 0 0,8
7 ans 0,55 0,08 0 0,6
8 ans 0,56 0,06 0 0,6
9 ans 0,51 0,04 0 0,5
10 ans 0,55 0,06 0 0,6
Adultes 0,47 0,08 0 0,6

Graphe 22 : Indice de diversité lexicale et écart-type en fonction du texte et de l'âge des sujets (sans formule neutralisant la taille de l'échantillon).

La courbe obtenue est évidemment contraire à toutes les attentes que l'on peut avoir lors d'une étude développementale. La variable de l'âge a, ici, un effet significatif sur l'indice de diversité lexicale (F(1,108) = 6,647 ; p < 0,0001) et les enfants de 6 ans qui viennent tout juste d'entrer dans l'écrit produiraient des textes significativement plus diversifiés que l'ensemble des autres tranches d'âge (p < 0,0001). L'absurdité de ce résultat est frappante et il faut donc trouver une solution pour éliminer cet effet de la taille de l'échantillon.