III.2.2.2.Modèles phonétiques de l’intonation

Les modèles phonétiques de l’intonation considèrent les valeurs acoustiques de la fréquence fondamentale. Contrairement aux représentation précédentes, ils ont le plus souvent recours à une représentation continue pour décrire l’intonation (Buhmann et coll., 2000)

Dans ce contexte, les approches non paramétriques apprennent directement les valeurs de F0, à partir d’un ensemble de valeurs pour chaque syllabe. Un ensemble de paramètres prosodiques est extrait de la cinématique des trajectoires de F0 (Morlec, 1997). Ainsi, elles tiennent compte d’un nombre plus restreint d’informations linguistiques. Buhmann et coll. (2000) et Traber (1992) ont utilisé un réseau de neurones récurrent de type Elman (1990) avec un algorithme BPPT (Backpropagation through time) pour générer l’intonation. Traber (1992) incorpore une double mémoire à son réseau (métaphore spatiale en entrée et rétroaction (Morlec, 1997). Pour Buhmann et coll. (2000) 25 paramètres (indices de rupture entre les mots, proéminence des mots, nombre de mots dans une phrase, etc.…) permettent de prédire cinq valeurs équidistantes de F0 par syllabes, pour six langues. Ils montrent ainsi que ces derniers modèles sont bien indépendants de la langue (Sun, 2002).

A l’opposé, les modèles paramétriques requièrent une transformation de valeurs de F0. Le modèle Tilt (Taylor, 2000) emploie une représentation continue de la fréquence fondamentale. Dans ce cadre, les tons décrits par les modèles phonologiques apparaissent comme des points particuliers de l’espace utilisé. Cette représentation est à la fois phonologique et acoustique. Les connaissances linguistiques proviennent des étiqueteurs du corpus, qui déterminent la présence d’un événement intonatif comme un accent. Ensuite, cet accent est représenté par un son type (ascendant, descendant ou une combinaison des deux) ainsi que par su durée et la somme de l’amplitude et de la montée et de la chute de F0. Le paramètre du type de l’accent est calculé automatiquement à partir des amplitudes et des durées de la montée et de la chute de F0. Dans ce cas, les étiqueteurs doivent indiquer la position et la durée d’un accent dans le signal. Ensuite, un système automatique retrouve les évènements intonatifs à partir de la représentation acoustique du signal.

Le système INTSINT ⁴² (Hirst et Di Cristo, 1998) décrit l’évolution de la F0 sous la transcription orthographique ou phonétique. Les mouvements mélodiques peuvent être figurés par des flèches, telles que ↑ pour indiquer une montée et ↓ pour une descente. Les flèches désignent les pics ou les vallées de la courbe intonative, qui sont jugés comme les moments les plus informatifs du point de vue de la perception et de la production. Il s’agit d’une transcription formelle et inversible de la structure mélodique.

L'algorithme de modélisation automatique (MOMEL) permet d’extraire automatiquement une séquence de points cibles constitués par des couples de valeurs <F0, temps>. Chaque point cible est codé par un symbole indiquant soit un ton absolu (Top, Bottom ou Mid), soit un ton relatif (Up, Down, Same, Higher ou Lower).

Les données brutes de F0 sont divisées en deux constituants : un facteur micro-prosodique correspondant aux variations à court terme de F0, qui sont conditionnées par la nature des phonèmes, et un facteur macro-prosodique, correspondant aux variations à long terme de l’intonation (indépendamment des phonèmes utilisés). Une courbe continue lisse obtenue à partir de fonctions « splines » quadratiques relie les points cibles et caractérise cette composante macro-prosodique. Elle correspond à des variations perceptives de F0, indiquant ainsi le profil suprasegmental qui définit globalement l'intonation.

Un outil d'analyse/resynthèse (technique PSOLA, Hamon et coll. 1989), utilisant les points cibles ainsi détectés, permet la synthèse de la courbe originale à partir de la courbe modélisée. Ce procédé est utilisé pour la validation perceptive de la stylisation automatique de la F0. Cet algorithme a été évalué pour différentes langues européennes à partir du corpus MULTEXT de EUROM1. Pour les enregistrements Anglais et Français, (soit une heure et demi), seulement 5% des points cibles ont du être corrigés pour satisfaire l’oreille humaine (Campione et Véronis, 1998).

Ce modèle peut être considéré comme un système combinant les aspects phonologiques et phonétiques. Une description de bas niveau du signal est d’abord employée pour obtenir une description phonologique de l’intonation. Quatre niveaux permettent donc de décrire la prosodie : tout d’abord, 1) le niveau acoustique procure les valeurs de F0, ensuite 2) le niveau phonétique est constitué des points cibles repérés par MOMEL, puis 3) le niveau phonologique de surface symbolise une séquence de segments tonaux, enfin 4) le niveau phonologique sous-jacent spécifie les relations entre les tons. Seul le dernier niveau ne peut être obtenu automatiquement. Les trois premiers niveaux sont de plus indépendants de la langue.

Les modèles séquentiels de description de l’intonation se distinguent des modèles superpositionnels, par leur traitement de l’information. Les modèles superpositionnels, comme le modèle de Fujisaki, décrivent l’intonation suivant différents domaines temporels (phonèmes, syllabes, mots, phrases). Ils cumulent ensuite ces différents niveaux pour obtenir une représentation complète de l’intonation. Les modèles séquentiels (Taylor, 2000 ; Traber, 1992 ; Buhmann et coll., 2000) décrivent les valeurs de F0 sous forme de séquences de valeurs ou de mouvements de F0, en respectant l’écoulement du temps (Buhmann et coll., 2000).

Notes

42.

« INternational Transcription System for INTonation ».