II.2.2.1.Adultes

Le travail de Ramus et coll. (1999) s’appuie sur l’hypothèse de perception des voyelles par les adultes et également par les nourrissons, formulée par Mehler et coll., en 1996. Le signal de parole est représenté sous la forme d’une succession de consonnes et voyelles de durées variables. Afin de déterminer si les sujets peuvent discriminer les langues uniquement à partir du rythme de la parole, les stimuli présentés doivent contenir seulement des indices rythmiques. Plusieurs paramètres acoustiques, phonétiques et prosodiques sont mesurés pour décrire des énoncés. Les phrases analysées sont tirées du corpus LSCP ⁷⁵ . Ces phrases sont segmentées en catégories phonétiques, en identifiant et en alignant chaque phonème par rapport au signal de parole, à l’aide d’un logiciel de visualisation du signal. Ensuite, une partie de ces informations est prise en compte pour synthétiser de nouveaux énoncés avec une voix artificielle. Cette resynthèse est effectuée à l’aide du logiciel MBROLA, qui utilise une base de diphones, dont la durée, la fréquence fondamentale et les phonèmes peuvent être spécifiés.

Ainsi, quatre transformations différentes sont évoquées. Pour chaque transformation, toutes les voyelles sont synthétisées par une unique voyelle [a] qui remplace toutes les voyelles :

Saltanaj : Dans cette transformation, les fricatives sont remplacées par [s], les liquides par [l], les occlusives par [t], les nasales par [n] et les semi-voyelles par [j]. L’intonation est copiée sur la courbe de F0 mesurée. Une partie de la phonotactique, le rythme et l’intonation sont préservés.
Sasasa : Toutes les consonnes sont remplacées par [s].
Sasasa plat : Même transformation que la précédente, avec un contour mélodique constant.
Aaaa : Cette transformation ne rend compte que du contour intonatif.

Ces transformations successives permettent d’isoler le rythme de la parole, et de « supprimer » l’intonation.

Les sujets doivent discriminer l’Anglais du Japonais, à partir des phrases resynthétisées. Les deux langues sont discriminées dans toutes les conditions exceptées pour celles ne contenant que le contour intonatif. Ainsi, les sujets ne distinguent pas les intonations anglaises et japonaises, si celles-ci sont dissociées de la composante rythmique créée par la succession des consonnes et des voyelles. Le rythme de la parole donné par la suite des consonnes et voyelles est suffisant pour discriminer l’Anglais du Japonais (condition Sasasa plat). En outre, les sujets échouent uniquement dans la condition Aaaa, seule condition où le rythme n’est pas présent. Des expériences précédentes (Maidment 1976, 1983 ; de Pijper, 1983) avaient montré que deux langues pouvaient être distinguées par leurs intonations, mais les locuteurs étaient natifs d’au moins une des deux langues à distinguer. Ramus (1999) propose donc une nouvelle expérience avec des sujets anglophones natifs. Ils obtiennent un score significativement supérieur au hasard, montrant que les intonations anglaises et japonaises peuvent être distinguées, dans la mesure où les sujets ont des connaissances préalables sur au moins une des deux langues. Que se passe-t-il pour les propriétés spectrales de la parole ?

Une seule étude a proposé d’étudier les propriétés spectrales lors de la discrimination des langues (Mori et coll., 1999). Lors de leur première expérience, les propriétés spectrales sont supprimées. Les sujets effectuent la distinction du Japonais et de l’Anglais avec un score de 85 % en se basant sur l’intonation et les propriétés rythmiques. Dans leur seconde expérience, le spectre est réduit entre une et quatre bandes spectrales. Ainsi, l’enveloppe temporelle est intacte, mais la F0 est supprimée. Les performances augmentent entre 1 et 4 bandes, de 63 % à 94 %. Seulement, il reste possible que certains mots soient identifiés clairement par les sujets, puisque la même expérience a été effectuée pour la reconnaissance des mots (Shannon et coll., 1995).

Les adultes sont sensibles à différentes propriétés de la parole, comment les nouveau-nés réagissent-ils à ces propriétés, alors qu’ils en ont très peu de connaissances ?

Notes

75.

5 phases par locutrices ont été retenues, soit 20 phrases par langues, ce qui conduit à 160 phrases en tout. Les phrases sont appareillées en nombre de syllabes entre 15 et 19, et durent 3 secondes en moyenne.