IV.1.2.La segmentation du signal de parole en mots

Les mots nouveaux sont souvent positionnés aux frontières prosodiques sur des pics de hauteur. Ces mots cibles sont mis en valeur dans des phrases courtes, avec une F0 plus haute, des variations de F0 plus importantes (Fisher et Tokura, 1996). Les nouveau-nés segmentent des mots comme « cup » dès l’âge de 7 mois et demi (Jusczyk et Aslin, 1995).

En Anglais, la segmentation se fait grâce à la différence entre les syllabes accentuées (stressed) et celles non accentuées (weak) (Cutler et Carter, 1987) 51 . En Français, la segmentation est syllabique, en Japonais, elle est fondée sur la mora. La langue maternelle influe sur le type de procédé de segmentation. Une fois ce processus déterminé, il fait alors partie du repertoire des mécanismes de traitement et sera utilisé quelle que soit la langue entendue. En effet, un français recourra toujours à une segmentation syllabique. Ainsi, la méthode de segmentation est originaire d’une première expérience d’apprentissage (Cutler, 1996).

Les bébés entre 6 et 9 mois sont sensibles à l’accent prédominant. Une stratégie raisonnable pour les enfants anglais consiste donc à placer le début de chaque mot sur chaque syllabe accentuée (Johnson et Jusczyk, 2001). Les syllabes de la parole se distinguent généralement par un pic d’amplitude qui est précédé et suivi d’une vallée d’amplitude (Jusczyk, 1997). A sept mois et demi, les enfants segmentent des mots avec un motif (fort – faible). En outre, dans ce dernier cas, si une syllabe faible suit la syllabe forte, la segmentation est effectuée ( ex. : « guitar is » devient une seul unité : « taris »). Certains mots trisyllabiques sont correctement segmentés, lorsqu’ils ont un motifs « Fort, faible, Fort » (par exemple « parachute », au lieu de « para » et « chute » ; Houston et coll., 2000).

Dans l’expérience proposée par Saffran, Aslin et Newport (1996), les nouveau-nés sont testés avec des mots (par exemple, golatu, daropi) qui composent aléatoirment un signal de parole d’un langage artificiel, et des non-mots (part-word : tudaro, pigola) qui sont issus d’un mauvais découpage du signal de parole. Seuls des indices phonotactiques permettent de segmenter correctement les mots. Les nouveau-nés préfèrent alors écouter les mots isolés qui correspondent au signal de parole, prouvant ainsi qu’ils segmentent correctement le signal de parole. Johnson et Jusczyk (2001) ont repris cette expérience, proposée initialement avec une voie synthétisée, mais cette fois-ci avec une voie naturelle.

Johnson et Jusczyk (2001) ont alors étendu l’expérience de Saffran et coll. (1996), pour confronter l’influence de la phonotactique face aux signaux prosodiques. La première syllabe des parties de mots (part-word) est accentuée, ce qui suggère une frontière différente de celles indiquées par les statistiques. Ils ont trouvé que les enfants utilisent de préférence les indices prosodiques (dans ce cas l’accent). A l’âge de 10 mois et demi, les bébés utilisent donc des indices multiples (accents et phonotactique) pour la segmentation.

Est-il possible de traiter automatiquement ces indices, de façon à pouvoir les placer dans le discours ?

Notes
51.

C’est généralement le cas dans les langues germaniques ainsi qu’en Russe, en Hongrois... En français, en revanche, c’est la dernière syllabe du mot qui est la plus accentuée ; en Espagnol et en Italien, la plupart des mots portent l’accent sur l’avant-dernière syllabe.