Diversité lexicale ?

La mesure du nombre de mots produits, et à plus forte raison encore le ratio type/occurrence sont cependant extrêmement sensibles à la taille de l’échantillon (Richards & Malvern, 1997) et donc aussi aux contextes qui peuvent, nous l’avons dit, favoriser ou inhiber les productions langagières. De plus, on voit qu’assez vite le ratio type-occurrence se stabilise et ne permet plus de distinguer les enfants. Une nouvelle mesure de diversité lexicale a donc été mise en place, pour contrôler la variabilité induite par des échantillonnages différents (et notamment l’effet de l’augmentation régulière des productions de l’enfant, qui conduit à une baisse du ratio type/occurrence) : l’indice de diversité lexicale D (McKee, Malvern & Richards, 2000) utilise toutes les données de l’échantillon sans pour autant dépendre de sa taille,

Par défaut, la commande traite les mots comportant des inflexions comme des mots différents. Nous avons donc utilisé les fichiers analysés en morphèmes, même si cela conduit certainement à une sous-estimation de la diversité des premières productions. A l’exclusion des reformulations, tous les items transcrits comme des mots ont été pris en compte. Seul problème : les premiers fichiers ne contenaient parfois pas assez d’énoncés de l’enfant pour pouvoir établir la mesure.

Figure 9 : Indice de diversité lexicale chez les enfants de nos corpus, en fonction de leur âge.
Figure 9 : Indice de diversité lexicale chez les enfants de nos corpus, en fonction de leur âge.

Les résultats donnent un aperçu plus parlant de la richesse des productions des enfants : on voit par exemple que l’indice est nettement plus élevé pour Naima, dès le début, et que ce sont ensuite les productions de Madeleine qui présentent la plus grande diversité. Un deuxième indicateur souvent utilisé pour comparer les enfants est la mesure de longueur moyenne d’énoncés, qui constitue le complément indispensable des remarques que nous venons de formuler sur la production de mots. Les indicateurs les plus fiables résultent en effet d’une combinaison de mesures : longueurs moyennes d’énoncés, âge et diversité lexicale, par exemple (Klee et al., 2004). Nous avons donc établi une dernière comparaison des enfants, sur la base de la longueur moyenne de leurs énoncés.