Diversité des champs

L’intégration de la prosodie dans des champs divers : psycholinguistique, sociolinguistique, neurolinguistique et son essor dans le domaine de la cognition, confirme la prise de conscience de l’importance qu’exerce les éléments prosodiques sur l’usage du langage et la communication. Di Cristo (2004), explique que c’est grâce à l’émergence de la phonologie non-linéaire que la prosodie a pu acquérir son autonomie. Ce changement a permis l’élaboration d’outils méthodologiques et théoriques mieux adaptés à sa description et sa modélisation, et par la suite, à l’étude de ses aspects cognitifs.

La prosodie occupe une position de plus en plus prépondérante dans les courants fondamentaux qui motivent les recherches en psycholinguistique, plus spécifiquement dans la production, la compréhension et l’acquisition du langage. Avec la ‘révolution cognitive’, la prosodie fait partie d’un large champ de recherche ouvert aujourd’hui dans le domaine de la linguistique dont le but est de comprendre comment cette composante du langage, au même titre que la syntaxe ou la sémantique, participe à la construction du discours et à son interprétation.

Historiquement, l’orientation psycholinguistique de la prosodie s’est manifestée dans les études de l’acquisition du langage par l’enfant (Morgan et Demuth, 1996; Nazzi et al., 1998 ; Ramus et al., 1999 ; Christophe et al., 2003). Les études ont montré que les caractéristiques rythmiques et mélodiques fournissent des indices sur les frontières de mots et les constituants grammaticaux. Il a donc été proposé que les composants prosodiques peuvent servir à l’initialisation du processus d’acquisition (Gleitman et Wanner, 1982 ; Pinker, 1984 ; Morgan, 1986). Cette hypothèse a pris le nom d'initialisation prosodique (i.e. prosodic bootstrapping) (Pinker, 1984).

Il existe dans la psychologie développementale plusieurs théories d’initialisation prosodique, lexicale et phonologique. Les théories d’initialisation prosodique supposent que le signal de parole contient des signaux prosodiques réguliers et suffisamment saillants pour permettre à l’enfant d’accéder à une information grammaticale sur les principales catégories linguistiques de sa langue.

Le codage prosodique permettrait également aux nouveaux-nés de catégoriser grossièrement les langues suivant leurs caractéristiques rythmiques et mélodiques. Ramus (1999) a effectué des mesures acoustico-phonétiques sur huit langues, montrant qu'une segmentation de la parole en consonnes/voyelles permet de déterminer certaines propriétés rythmiques des langues. Les expériences menées avec les nouveau-nés mettent en évidence le fait qu’ils soient capables de discriminer entre trois langues présentant des caractéristiques rythmiques différentes à partir de stimuli sonores synthétisés. Les résultats ont montré que le nourrisson possède dès la naissance la capacité de distinguer des langues comme le néerlandais du japonais, sur la base de leurs seules différences rythmiques.

De même chez l’adulte, les régularités prosodiques de la langue sont considérées comme des indices susceptibles d’être exploité par l’auditeur pour la segmentation de la parole. Cutler et Norris (1988) ont développé ‘le mécanisme de la segmentation métrique’ (i.e. Metrical Segmentation Strategy) selon lequel les auditeurs exploiteraient les probabilités prosodiques de leur langue pour segmenter le signal acoustique. Par exemple en anglais, la stratégie de segmentation métrique postule la segmentation du signal de parole à chaque syllabe accentuée rencontrée. Les résultats montrent 90% de segmentation correcte.

La prosodie peut avoir aussi des fonctions paralinguistiques. Ces fonctions permettent de transmettre certaines informations sur le locuteur comme son état émotionnel, son appartenance géographique, son âge, son sexe, etc. ainsi que des informations sur son attitude envers ses interlocuteurs : assurance, hésitation, etc. C’est ainsi que la prosodie est aussi présente dans d’autres domaines de la psychologie cognitive. Le traitement prosodique a été intégré dans l’encodage et le décodage de la parole (Weeldon et Lahiri, 1997), et dans la perception et l’identification des émotions dans l’activité langagière (Caelen-Haumont, 2000, 2001). Les études ont cherché à dresser les profils prosodiques des émotions pour tenter de les discriminer ¹³ . Les caractéristiques prosodiques relevées par les auteurs sont concordantes d’un auteur à un autre, et globalement d’une langue à une autre, au moins en ce qui concerne les émotions primaires. Récemment des études ont montré que les paramètres acoustiques de la prosodie sont des indices expressifs en séparant le niveau de contrôle de la qualité de voix et celle de la prosodie. Par exemple, Bänziger et al. (2001) ont décrit acoustiquement un large panel d’émotions dans des études multi-culturelles. Dans certains contextes de communication, les paramètres prosodiques reflètent les expressions régulées (modulées ou transformées) en fonction d'un ensemble de règles socioculturelles. Ces règles (i.e. display rules) ont été étudiées par différents auteurs ¹⁴ qui ont montré que les expressions émotionnelles varient d'une culture (ou d'un groupe social) à l'autre, dans des contextes "objectivement" similaires. Ainsi, la prosodie est « ‘ le vecteur privilégié des émotions dans la ’ ‘ parole, elle est le siège de l’expression directe des émotions, du codage des attitudes et des stratégies expressives pour un même matériel acoustique. ’ » (Aubergé, 2002, p.264).

Le traitement automatique des informations prosodiques est un autre domaine prometteur dont les questions sont toujours ouvertes aussi bien sur le plan fondamental que dans le domaine des applications. Dans ce cadre-là, trois thématiques motivent les chercheurs. La première relève du domaine de la synthèse avec la mise en œuvre de modèles pour la génération de la prosodie dans les systèmes de synthèse de la parole (e.g. Aubergé, 2000 ; Mertens, 2001, 2002 ; Zellner, 1996, 1998). La deuxième thématique relève du caractère plus ou moins automatisable des méthodes de segmentation et d’étiquetage de la prosodie. En effet, L’étude de la prosodie nécessite de plus en plus l’analyse de corpus oralisés conséquents ainsi que celle d’énoncés spontanés. La segmentation manuelle des composants prosodiques est une opération coûteuse en temps. Ainsi, des modèles de segmentation automatique sont proposés pour la transcription prosodique (e.g. ToBe, Instint...). Le troisième aspect s’inscrit dans la thématique de l’identification automatique des langues (IAL) et de la reconnaissance automatique de la parole (RAP) puisque les phénomènes prosodiques, dont la nature et les fonctions sont variées (accent, ton, rythme, intonation, pauses, etc.) manifestent des faits suprasegmentaux qui semblent être exploitables dans les systèmes d’IAL et de RAP.

Néanmoins les très nombreux travaux consacrés à l'étude de la prosodie n'ont toujours pas permis de formaliser précisément un ensemble de règles exploitables dans le traitement automatique des informations prosodiques. Méloni et al. (1996) résume trois types de difficultés : (1) l'extrême variabilité contextuelle de ces connaissances (i.e. type de parole, locuteur, structure et contenu des énoncés, nature de l'environnement, etc. ), (2) la complexité des relations qu'entretiennent les informations prosodiques avec les différents niveaux de la structuration linguistique des énoncés, (3) les problèmes rencontrés pour la mesure précise des observations acoustiques et pour leur pondération relative vis-à-vis des autres données et connaissances disponibles.

Une partie de ces systèmes est conçue dans le but de vérifier les hypothèses sur la classification de langues selon certains traits prosodiques, notamment le rythme. Nous présenterons dans le détail ces systèmes comparatifs dans le chapitre qui suit.

Le processus de traitement automatique exige une interprétation pluriparamétrique des faits prosodiques (Di Cristo, 1978; Campbell, 1994) et nécessite l’intégration de tous les niveaux utiles de représentation (de l'acoustique à la phonologie). Cela rend la tâche particulièrement difficile, notamment quand chaque événement traité doit donc être affecté d'un score de qualité (Méloni et al., 1996). Par ailleurs, les phénomènes impliqués sont chargés d'une quantité d'information variable suivant le contexte comme dans le cas de la parole spontanée. La présence de faits prosodiques linguistiquement pertinents et de phénomènes prosodiques extra-linguistiques rend encore plus difficile l'interprétation des informations utiles, notamment dans la modélisation du rythme de la parole qui nécessite la prise en compte de plusieurs phénomènes prosodiques, comme la syllabe, l’accent et/ou la durée.

Notes

13.

Pour une revue, voir Caelan-Haumont (2001)

14.

Voir la thèse deBänziger (2001) pour une revue.