Le calcul de cette mesure se heurte à un problème : l'indice de diversité lexicale est extrêmement sensible à la taille de l'échantillon. En effet, "on sait depuis longtemps que le rapport entre les deux données fondamentales, N et V, est inutilisable ; nous savons que f, qui exprime ce rapport, varie avec l'étendue du texte" (Muller, 1992 : 117). En effet, plus le texte est court et plus le nombre de mots qui le compose a de chances de concerner des mots différents. Au contraire, plus le texte est long, plus les probabilités de répétitions augmentent, avec, pour conséquence, une diminution du rapport de V sur N. Pour rendre compte de cette corrélation, considérons les restitutions
des sujets en fonction du texte et de l'âge des sujets :
Texte | Âge | Indice de diversité lexicale | Écart-type | Centile 10ème 90ème |
|
PCR | 6 ans | 0,69 | 0,1 | 0 | 0,8 |
7 ans | 0,54 | 0,05 | 0 | 0,6 | |
8 ans | 0,53 | 0,06 | 0 | 0,6 | |
9 ans | 0,54 | 0,05 | 0 | 0,6 | |
10 ans | 0,51 | 0,05 | 0 | 0,5 | |
Adultes | 0,53 | 0,08 | 0 | 0,6 | |
DAN | 6 ans | 0,75 | 0,07 | 0 | 0,8 |
7 ans | 0,55 | 0,08 | 0 | 0,6 | |
8 ans | 0,56 | 0,06 | 0 | 0,6 | |
9 ans | 0,51 | 0,04 | 0 | 0,5 | |
10 ans | 0,55 | 0,06 | 0 | 0,6 | |
Adultes | 0,47 | 0,08 | 0 | 0,6 |
La courbe obtenue est évidemment contraire à toutes les attentes que l'on peut avoir lors d'une étude développementale. La variable de l'âge a, ici, un effet significatif sur l'indice de diversité lexicale (F(1,108) = 6,647 ; p < 0,0001) et les enfants de 6 ans qui viennent tout juste d'entrer dans l'écrit produiraient des textes significativement plus diversifiés que l'ensemble des autres tranches d'âge (p < 0,0001). L'absurdité de ce résultat est frappante et il faut donc trouver une solution pour éliminer cet effet de la taille de l'échantillon.