2.3.4 les expériences d’identification des langues par la prosodie

De nombreuses études exploitant les capacités du système perceptif humain ont montré que la prosodie est un indice fiable pour la discrimination des langues. Ainsi, comme nous l’avons déjà mentionné, Ramus (1999a) a construit une série d’expériences (dans le but de mettre en évidence certains aspects concernant l’acquisition de la langue par l’enfant, mais aussi dans celui d’apporter de nouvelles informations pour l’identification des langues) pour démontrer que l’acquisition du langage passe par le niveau supra-segmental, plus précisément, par celui du rythme. Ses expériences avec des nouveau-nés montrent que ceux-ci sont capables de discriminer des stimuli sonores qui gardent seulement les données rythmiques des langues ayant des types rythmiques différents. Ces résultats sont partiellement confirmés par les scores obtenus avec une population de singes (tamarins), ce qui prouve que ces indices sont de nature beaucoup plus générale, qui dépasse la barrière de notre espèce.

Etant donnée que l’information supra-segmentale est très significative pour la discrimination des langues, plusieurs approches expérimentales ont été appliquées à ce secteur pour mieux circonscrire sa nature. Pour certains auteurs, il a été également question par la suite de comparer la façon dont les humains se servent des informations prosodiques dans la discrimination des langues, avec le traitement de cette composante langagière dans les systèmes automatiques. Enfin, d’autres auteurs ont tenté de modéliser les données supra-segmentales dans le cadre des systèmes d’identification automatique.

Ainsi, l’un des premiers travaux réalisés à cette fin a été présenté dans l’étude de Ohala & Gilbert (1979). Les auteurs ont tenté de vérifier comment les sujets humains arrivent à discriminer les langues (dans ce cas de l’anglais américain, du japonais et du cantonais), alors qu’ils n’ont accès qu’aux informations concernant les variations de la fréquence fondamentale. Les résultats montrent que la moyenne générale de la réussite se situe à 56,4%. Lorsque les sujets bénéficient d’un entraînement préalable les scores d’identification correcte atteignent 55,1% d’identification correcte. En revanche, les sujets qui ne bénéficient pas d’une phase d’entraînement obtiennent uniquement 44,1% de réponses correctes. Enfin, les sujets monolingues réussissent la tâche à 50,3%, les bilingues à 59,3% et les trilingues à 53,2%. Quant au rôle de la durée des stimuli, les stimuli courts (<10 secondes) sont reconnus à 55,1%, tandis que les stimuli longs (15-25 secondes) sont reconnus à 57,7%. Les scores obtenus permettent de remarquer que la bonne discrimination dépend de la durée des stimuli, de l’apprentissage, du caractère mono/bilingue des auditeurs et de la présence de la langue maternelle parmi les langues de test.

Auparavant, Atkinson (1968) et Bonte (1975) avaient tenté des expériences perceptives s’appuyant sur des stimuli artificiels où des données prosodiques avaient été préservées, sans que pour autant les résultats soient extrêmement révélateurs.

Par la suite, Maidment (1983), évaluant l’importance de l’information prosodique dans la discrimination des langues, se propose de mettre en valeur plusieurs facteurs, tels que l’aisance du traitement prosodique si les stimuli sont en parole naturelle, le rôle de l’entraînement et du feed back, et, enfin, le rôle des acquis antérieurs, donc du caractère [+/- naïf] des sujets participant au test. Pour cela l’auteur a employé des stimuli naturels et enregistrés avec un laryngographe en français et en anglais. Les stimuli ont été par la suite présentés à deux groupes de sujets, francophones et ’naïfs’, qui de plus ont eu la possibilité de se servir d’une échelle de valeur de 1 à 4 pour noter le degré de similarité des stimuli entendus. Les 74,68% de scores corrects révèlent que le français a été facile à différencier de l’anglais en raison de ses caractéristiques prosodiques.

Plus tard, Ramus & Mehler (1999b) ont réalisé une étude qui examine les capacités de discrimination des langues chez les nouveau-nés susceptibles de vivre dans un milieu bi- ou multilingue. L’anglais et le japonais sont reconnus et discriminés à travers des phrases où les informations préservées concernent, tour à tour : 1. le niveau phonotactique ; 2. le rythme et l’intonation ; 3. seulement l’intonation ; et, finalement, 4. seulement le rythme. Il s’est avéré que le rythme est suffisant pour discriminer les phrases en japonais de celles en anglais.

Ainsi, cette étude a permis aux auteurs de confirmer les travaux de Ramus (1999a) qui ont consisté à simuler la classification des langues par rapport à leur appartenance à un type accentuel et au travers d’une analyse discriminante. L’analyse discriminante a été effectuée sur des mesures concernant la segmentation des voyelles et des consonnes présentes dans huit langues. Ces mesures suggèrent que les types rythmiques reflètent des propriétés phonologiques spécifiques qui, par ailleurs, sont signalées par les propriétés phonético-acoustiques de la parole. Plusieurs classes de langues sont ainsi obtenues, qui correspondent à différents types rythmiques. Par la suite, les expériences perceptives menées auprès de nouveau-nés ont donc prouvé la réalité de ces classes linguistiques. Ainsi, il semble que les bébés réagissent de façon plus sensible lorsqu’ils écoutent deux stimuli issus de deux classes rythmiques différentes, que lorsqu’ils écoutent deux stimuli qui appartiennent à la même classe rythmique. Les réactions des nourrissons sont mesurées en termes de taux de succion enregistrés à la présentation de stimuli. Les changements significatifs dans les taux de succion sont liés aux réactions par rapports aux spécificités rythmiques des stimuli. Ainsi, une succession de stimuli issus de langues ayant le même type rythmique n’entraîne pas de réaction notable, alors que l’intervention d’un nouveau stimulus témoignant d’un autre type rythmique est perçue par les bébés qui réagissent au travers de la modification des taux de succion. Ces résultats sont étayés par des études similaires mais faisant appel à des sujets adultes et utilisant un paradigme expérimental de recherche d’intrus.

Avec un test utilisant une méthode complémentaire, Navràtil (1998) vérifie l’importance de certains types d’informations phonotactiques et prosodiques présentes dans le signal. Sa méthode consiste à utiliser : 1. des échantillons en parole naturelle ; 2. des échantillons ou l’ordre des syllabes a été inversé et 3. des échantillons où seule l’information concernant la fréquence fondamentale et l’amplitude restait présente. Les résultats sont obtenus par le biais d’une expérience perceptive faisant appel à 84 auditeurs adultes appartenant à douze populations différentes. Les sujets ont écouté des échantillons en anglais, en français, en allemand, en japonais et en mandarin. Ces résultats ont montré que l’information phonotactique et acoustique était plus importante que l’information prosodique. L’information lexicale est également à prendre en compte. Néanmoins, l’information prosodique semble jouer un rôle plus important pour les langues dites ’de frontière’ du point de vue rythmique, telles que le français ou le mandarin, comparé à celui des autres langues.

D’autres travaux prouvent qu’une information supra-segmentale beaucoup moins saillante peut fournir suffisamment d’indices pour permettre une reconnaissance ou une discrimination linguistique. Deux études nous paraissent pertinentes de ce point de vue.

Ainsi, Mori & al. (1999) ont étudié le rôle de l’information prosodique dans l’identification des langues en utilisant des résiduels LPC en tant que stimuli auditifs. Ils ont été obtenus d’après une méthode (LPC) qui divise l’information acoustique en information de type ’source’ (appelée aussi des résiduels) et en information de type ’filtre’ (appelée aussi des ’coefficients LPC’). D’une manière générale, les coefficients correspondent à l’information segmentale, tandis que les résiduels correspondent à l’information supra-segmentale. Les auditeurs ont réussi à identifier des mots grâce aux résiduels, ce qui a autorisé Mori et ses collaborateurs à affirmer que les indices présents dans les résiduels (i.e., la présence ou l’absence des harmoniques, les variations temporelles d’intensité, entre autres) fournissent suffisamment d’informations pour permettre de différencier entre les catégories majeures de segments, i.e. voyelles et consonnes, ainsi qu’entre les modes d’articulation. Plus tard, Komatsu & al. (2000) ont repris l’expérience, mais dans un but différent de celui de l’identification des langues. Les résiduels, donc l’information supra-segmentale, ont été assez proéminents pour permettre la reconnaissance des consonnes du japonais aussi bien par des natifs de cette langue que par des non-natifs.

Les études des stratégies employées par les auditeurs pour traiter l’information prosodique sont sensiblement moins nombreuses que celles dédiées à la description du phénomène même. Parmi ces études, il nous semble important de citer celle de Makarova (2000), qui a comparé les stratégies perceptives utilisées par des natifs d’anglais, de japonais et de russe pour reconnaître le type de phrases (i.e., assertives, questions et exclamations) produites par des locuteurs de japonais. Le matériel utilisé a consisté en des faux mots en japonais resynthétisés pour pourvoir varier l’information correspondant aux variations de fréquence fondamentale et à la durée. Ensuite, on a demandé aux sujets de catégoriser les stimuli comme phrases assertives, interrogatives ou exclamatives. Les résultats ont montré que les auditeurs - bien que leurs langues maternelles soient différentes - procèdent d’une manière quasi analogue pour construire les trois catégories phrastiques mentionnées, en dépit des différences entre les spécificités prosodiques de leurs langues maternelles et celles du japonais.

Enfin, d’autres études portent sur la discrimination des dialectes grâce à des informations de nature prosodique. Foreman (1999) réalise une expérience en parole naturelle qui porte sur la discrimination dialectale entre l’anglais ’standard’ (’Mainstream American English’) et l’anglais des afro-américains (’African-American English’). L’auteur n’arrive pourtant qu’à une conclusion élémentaire : l’identification dialectale est plus facile dans le cas où le pattern intonatif ne varie pas à l’intérieur des locuteurs d’un même dialecte. De plus, il s’est avéré que l’exposition antérieure des sujets aux dialectes analysés joue un rôle considérable dans l’obtention de bons résultats en discrimination.

Dans le même esprit, Barkat (2000) évalue le pouvoir discriminant des indices prosodiques et rythmiques dans la différenciation des parlers arabes (et plus précisément les variations de la courbe de la fréquence fondamentale et l’amplitude de certains événements contenus dans le signal). Ces informations sont suffisantes, à elles seules, pour permettre la différenciation des dialectes arabes maghrébins des dialectes arabes moyen orientaux, et cela lors de tests réalisés avec des locuteurs naïfs arabophones et non-arabophones.

Ces diverses études prouvent le rôle primordial de l’information supra-segmentale dans l’identification des langues. D’abord, le niveau supra-segmental semble être le premier acquis lors de l’apprentissage de la langue maternelle. De plus, les sujets humains sont capables de discriminer des langues inconnues même si l’information segmentale est absente. Finalement, il s’est avéré que les traits les plus discriminants sont le rythme et les variations de la fréquence fondamentale.