Identification perceptuelle

De nombreuses études exploitant les capacités du système perceptuel humain ont montré que le rythme est un indice fiable pour discriminer les langues. L’un des premiers travaux à avoir démontré la pertinence de l’information suprasegmentale celui de Ohala et al. (1979). Les auteurs ont montré que les sujets parviennent à discriminer trois langues (anglais américain, japonais et cantonais) en se basant uniquement sur les variations de F0. Les résultats montrent que les scores d’identification varient selon la durée des stimuli, l’apprentissage, le caractère monolingue ou bilingue des auditeurs et la présence de la langue maternelle parmi les langues testées. Maidment (1983) a analysé le rôle de l’information prosodique pour l’identification de la parole naturelle. L’auteur a employé des stimuli naturels enregistrés avec un laryngographe en français et en anglais. Les stimuli ont été par la suite présentés à deux groupes de sujets, francophones et ‘naïfs’, qui se sont servis d’une échelle de valeur allant de 1 à 4 pour évaluer le degré de similarité des différents stimuli perçus. Le taux de 74,7 % de réponses correctes obtenus révèle que le français et l’anglais peuvent être distingués sur la seule base de leurs caractéristiques prosodiques.

Parmi les rares études à s’être intéressées à l’arabe parmi d’autres langues, celle de Stockmal et al. (1996). Les auteurs ont mené une expérience perceptive pour déterminer les propriétés permettant aux sujets d’identifier des langues appartenant à des familles linguistiques éloignées. Le corpus contenait des extraits en arabe, en japonais, en chinois, en indonésien, en russe et en espagnol. Les résultats ont montré que les sujets parviennent à grouper les langues à partir d’informations acoustiques relatives à la fréquence fondamentale, le type syllabique de la langue et/ou le débit de parole. Les mêmes auteurs ont mené une seconde expérience dont l’objectif était de déterminer les indices permettant de discriminer le coréen par rapport à d’autres langues appartenant à la même zone géographique. Les résultats montrent que les critères de discrimination utilisés sont les voix des locuteurs, les variations de la fréquence fondamentale et les particularités de l’inventaire vocalique pour chaque langue.

Les travaux étudiant le rôle de l’information prosodique dans l’identification des variétés d’une même langue sont peu nombreux. Ménard (1999) a comparé le français du Québec à celui de France, en se basant sur un corpus de parole lue. Elle a révélé que l’identification des deux variétés de français repose sur la hauteur et l’étendue de F0. Les locuteurs français étaient mieux identifiés quand ils présentait une hauteur de F0 plus élevée, et les locuteurs québécois étaient mieux identifiés quand ils présentaient une étendue de F0 plus importante.

Barkat et al. (1999) ont tenté d’évaluer quelques paramètres prosodiques pour la discrimination de différentes variétés dialectales arabes. La tâche consistait à observer les performances d’identification d’un groupe de sujets (arabophones et non arabophones) lorsque ceux-ci n’ont accès qu’à l’information de F0 et de l’amplitude contenue dans le signal de parole. L’expérience a consisté à faire discriminer les différentes variétés dialectales en termes de zones géographiques (arabe maghrébin vs. arabe moyen-oriental) à l’aide des stimuli synthétiques. Les résultats montrent que le score d’identification correct est de 58% (significativement supérieur au hasard : p<.002).

Dans une autre tache perceptive, l’auteur dispose des réponses fournies par ces sujets à propos des indices (prosodiques, segmentaux et/ou lexicaux) qui ont aidé à l’identification. L’analyse de ces réponses a révélé que, parmi l’ensemble des critères discriminants identifiés par les sujets, un critère a été perçu comme particulièrement utile pour la discrimination des parlers arabes : le « rythme » propre à chacun des deux groupes de parlers. En effet, les échantillons maghrébins ont généralement été perçus comme l’enchaînement successif de bruits apériodiques continus et impulsionnels (i.e. consonnes), plutôt brefs (entre 60ms pour les occlusives, 100 ms pour les constrictives) et d’amplitude relativement faible. La succession de ces évènements conduit à une impression auditive définie par les sujets comme présentant un pattern rythmique plus saccadé et plus rapide. A l’inverse, la présence – à intervalles réguliers -– de sons périodiques d’amplitude forte et d’une durée moyenne de 120 ms (i.e. voyelles) mène à la perception d’une organisation syllabique plus stable et à une impression de rythme plus régulier propre aux parlers orientaux.

Les performances des sujets permettent ainsi de considérer certaines propriétés prosodiques comme l’accent, le rythme, la durée ou l’intonation comme des critères potentiellement pertinents pour la discrimination des parlers arabes. En effet, les résultats obtenus par Barkat et al. (1999) tendent à confirmer l’hypothèse selon laquelle la prosodie des parlers arabes est suffisamment différente d’une aire dialectale à l’autre pour permettre leur discrimination. Une explication possible de ces résultats pourrait se trouver dans les informations temporelles et les variations de structures syllabiques, ce qui renvoie aux caractéristiques rythmiques relatives auxquelles nous nous intéressons dans ce travail.

En résumé, les expériences perceptives ont montré que l'oreille humaine est capable d'identifier les langues et/ou les dialectes à partir de leur seule prosodie mettant ainsi en avant le fort pouvoir discriminant de ces traits et l'intérêt manifeste de leur exploitation dans des systèmes d'IAL.