1.2.2. Les solutions

Muller (1992) présente différentes possibilités de palier à cette influence (V/√N ou log N/ log V pour les plus connues) mais aucune ne le satisfait pleinement. Il existe toutefois une méthode plus efficace pour neutraliser ce problème de taille de l'échantillon qui serait de calculer le rapport entre V et la racine carrée, non pas de N, mais de 2*N (Caroll, 1964 cité par Richards, 1987).

Une autre méthode semble efficace : elle est appelée "vocabulaire théorique" (Muller, 1992) et consiste en la neutralisation de la différence de taille par suppression de mots. Devant deux textes A et B (A étant plus long que B), on se demande ce qui se passerait si A était ramené à la longueur de B. L'auteur explique que l'on peut également se demander ce qu'il en serait si on rallongeait B jusqu'à ce que sa longueur égale celle de A mais il n'a alors pas de réponse assurée et préfère considérer la première solution, celle de la suppression aléatoire de mots. Ce fastidieux travail a été entrepris par Gayraud (2000) qui montre que cette méthode et celle de Caroll (i.e. V/√2*N) conduisent à des résultats relativement consensuels. Aussi n'utiliserons-nous que cette dernière, celle de Caroll (1964), pour mesurer les indices de diversité lexicale qui vont faire l'objet de la suite de ce chapitre.

Cependant, avant de calculer la diversité lexicale des textes initiaux et la diversité lexicale des restitutions, il est primordial de présenter les différentes options devant lesquelles se trouve le sujet ayant à produire un texte.