II.3.1.A partir de carte auto-organisatrice (Shi et coll., 1998)

Shi et coll. (1998) ont étudié si divers indices présyntactiques sont suffisants pour guider l'attribution des mots aux catégories grammaticales rudimentaires. Leur recherche sur l'Anglais, le Chinois Mandarin et le Turc prouve que des ‘ " ’ ‘ ensembles d’indices distributionnels, phonologiques, et acoustiques distinguant les articles lexicaux et fonctionnels sont disponibles dans le discours dirigé à l’enfant au travers de langues de typologie distincte telles que le Mandarin et le Turc ’ ‘ " ’ (Shi et coll., 1998). Leur étude est effectuée à partir d’un corpus de discours adressé à l’enfant 96 . 5 % des mots sont tirés au hasard puis transcrits pour faire partie de l’analyse 97 . Chacun de ces mots est représenté par un ensemble d’indices (certains indices sont spécifiques de la langue étudiée) :

  1. Mesures distributionnelles :
  • Fréquence du type (indice lexical) ;
  • Position dans la phrase (début, milieu, ou fin).
  1. Mesures phonologiques :
  • Nombre de syllabes 98  ;
  • Structure syllabique 99 ;
  • Présence d’une nasale en fin de syllabe (Coda) ;
  • Duplication d’une syllabe (Mandarin : plus souvent sur les mots de contenu) ;
  • Ton appuyé (Mandarin uniquement) ;
  • Harmonie vocalique (Turc uniquement).
  1. Mesures acoustiques (calculées pour une syllabe, puis moyenne effectuée sur le mot)
  • Durée de la syllabe ;
  • Amplitude relative 100  ;
  • Variation de F0 101 (calculée en demi-tons, et normalisée par la durée).

La durée des syllabes a été examinée seule pour le Mandarin. Elle permet, moyennant un apprentissage supervisé, une identification de 71 % et 90 % pour chacune des deux mères. La durée séparant le mieux les mots de fonction et de contenu est de 135 ms pour la première mère, 125 ms pour la seconde. Trois apprentissages non supervisés ont été appliqués sur la durée des syllabes de la seconde mère (Cluster : 66 %, division suivant lamoyenne de tous les mots : 81 %, médiane : 84 %),et de la première mère (respectivement : 56 %, 60 % et 58 %). L’indice de durée des syllabes est l’indice qui obtient le pourcentage d’identification correcte le plus élevé.

L’utilisation de carte auto-organisatrice de Kohonen (1982) permet d’identifier les mots de fonction des mots de contenu à partir de l’ensemble de ces indices exceptés les variations de F0. Chacune des entrées est normalisée, si bien que toutes ont le même poids pour le réseau. Les unités du réseau sont étiquetées en fonction de leur réponse, pendant l’apprentissage 102 . Pour le Mandarin, les performances sont les suivantes : Mère 1 : 93 %, Mère 2 : 88 %. En outre, les deux catégories ont le même degré de reconnaissance. Pour le Turc, les performances atteignent 86 % et 84 % pour chaque mère.

Les enfants pourraient classer des mots segmentés ou des morphèmes dans des super-catégories, avant de savoir le sens de ces mots et d’avoir une représentation de l’analyse distributionnelle des mots présents dans le signal de parole. Certaines propriétés semblent universelles (durée des voyelles ou des syllabes plus courtes, moins de syllabes pour les mots de fonction).

Notes
96.

Deux mères avec deux enfants agés de 11 et 20 mois.

97.

En Anglais, on dénombre 67 mots de contenu et 31 de fonction pour la première mère et 49 mots de contenu et 28 mots de fonction pour la seconde mère.

98.

Mandarin : 29 % de l’extrait des mots lexicaux sont multisyllabiques, 49 % dans la totalité ; Turc : 50 % des mots de contenu sont multisyllabiques, 91 % des mots de fonction ne contiennent qu’une seule syllabe.

99.

Mandarin : 65 % des mots de contenu ont des diphtongues. 19 % pour les mots de fonction.

100.

Ratio énergie RMS de la syllabe courante par la syllabe la plus forte de la phrase.

101.

Aucune différence significative n’est observée entre les deux catégories, mais les mots de contenu varient plus que les mots de fonction.

102.

Trois choix possibles en fonction des unités du voisinage. Si l’une des unités du voisinage donne une réponse différente, la réponse est considérée comme confuse et n’est pas prise en compte. Si toutes les unités ne sont pas étiquetées, le mot testé n’est pas classé.