II.1.Reconnaissance automatique des émotions

L’identification des émotions ou des attitudes prosodiques est un thème de recherche assez récent. Nous allons dresser un panorama des diverses techniques employées pour executer cette tâche. Pour les études existantes, le nombre de données est relativement restreint, en terme de quantité d’exemples appris, de paramètres caractérisant le signal, et de méthodes employées (McGilloway et coll., 2000; Breazeal, 2000 ; Slaney et Mc Roberts, 1998). Une des premières études sur les émotions portait sur les corrélats acoustiques des attitudes. Ainsi l’expression de la joie a une fréquence fondamentale moyenne plus élevée que des phrases calmes.

Contrairement à l’Identification Automatique des Langues, il n’existe pas de corpus commun. La plupart des études existantes effectuent apprentissage et validation avec un seul locuteur. ASSESS (McGilloway et coll., 2000) permet des performances de 55 % pour 4 attitudes basiques à l’aide d’une analyse discriminante. Dellaert, Polzin et Waibel (1996) proposent un système utilisant la fréquence fondamentale et un algorithme des n plus proches voisin, avec des performances de l’ordre de 80 % pour 4 émotions. Slaney et Mc Roberts (1998 ; 2003) ont axé leur recherche sur l’identification des émotions chez les enfants.

McGilloway et coll. (2000) prennent en compte plusieurs paramètres statistiques : la moyenne, minimum et maximum, la différence entre les extrêmums, la variance et la distribution de l’intensité, la longueur des segments syllabiques ou phonémiques, et les montées de F0. Ils ont employées des « support vector machine », des mixtures gaussiennes et des analyses discriminantes linéaires.

Oudeyer (2002) a étendu ces travaux, en prenant en compte la fréquence fondamentale, ainsi que l’intensité des bandes de fréquences les plus basses (< 250 Hz), et des bandes spectrales plus hautes (>250 Hz). Une mesure spectrale est également incluse, calculée à partir du vecteur absolu dérivé des 10 premiers coefficients MFCC (Mel Frequency Cepstral Coefficients). Chaque mesure est effectuée toutes les 10 ms, et est traduite en quatre séries : les valeurs brutes, les minima, les maxima, les durées entre deux extrêma. Chaque série est alors caractérisée par la moyenne, le minimum, le maximum, la différence entre le minimum et le maximum, la variance, la médiane, le premier et troisième quartile, l’interquartile et la moyenne absolue de la dérivée locale. Ceci conduit donc à 5 dimensions, représentées par 4 séries décrites par 10 statistiques, soit un total de 200 paramètres. Ces paramètres sont normalisés, avant d’être appris. La base étudiée est composée de 200 exemples par locuteur et par émotion, soit 2000 exemples au total. Il s’agit de courtes phrases, comme « Bonjour », « ça va », « Qu’est ce que vous aimez mangez ? ».

A l’aide d’une technique de validation croisée avec 90 % du corpus en apprentissage et l’ensemble des paramètres, quatre émotions sont reconnues avec un taux d’identification situé entre 92 % et 97 %. Les statistiques décrivant l’intensité de la partie prosodique du signal sont souvent prises en compte dans les règles élaborées par les arbres de décision. Une mesure de l’entropie des différents paramètres permet de sortir les 20 paramètres les plus informatifs pour l’identification des émotions. Parmi ceux-ci trois seulement sont cités dans des études psychoacoustiques (la moyenne, le minimum et le maximum de la hauteur).

Nwe, Foo et De Silva (2003) ont testé leur système avec deux langues, le Mandarin et le Birman. Le corpus a été validé par une identification des émotions par des êtres humains (performance de 65.7 %). Des chaînes de Markov cachés sont employées pour traiter l’information venant du signal de parole. La base d’apprentissage est composée de 60 % des phrases de chaque locuteur. L’algorithme proposé est dépendant du locuteur, mais indépendant du texte. L’utilisation des coefficients LFPC et des chaînes de Markov Cachées (HMM) permet d’identifier 6 émotions différentes avec un score de 80 %, et ce, avec 2 langues différentes. En outre, ils obtiennent les scores les plus élevés avec les coefficients LFPC (Log Frequency Power Coefficients), qui sont comparés aux coefficients traditionnels utilisés en traitement de la parole MFCC, et LPCC (Linear Prediction Cepstral Coefficients). Les coefficients LFPC conservent mieux les valeurs de la F0 pour les filtres basses fréquences.

Une seule étude propose des résultats avec plusieurs locuteurs (50 pour Nicholson, Takahashi et Nakatsu, 1999 et 2000). Un ensemble de motifs acoustiques (phonétique et prosodique) est calculé avant d’être transmis à un réseau de neurones. Les indices sont prosodiques : l’énergie du signal et la hauteur, et phonétiques : 12 paramètres LPC (Linear Prediction Coefficients) et un paramètre ΔLPC de variation de ces paramètres. Chaque phrase est représentée par un ensemble de 20 vecteurs de 15 indices. Un vecteur de 300 composantes est donc donné en entrée de huit réseaux, qui apprennent chacun une émotion différente. Chaque réseau donne alors un indice de vraisemblance pour chaque émotion apprise. Chaque réseau comprend 4 couches, la dernière ne comprend qu’un seul neurone. L’apprentissage est effectué par une rétropropagation du gradient. 50 hommes et 50 femmes constituent la base de données. Les hommes et les femmes sont séparés pour l’apprentissage. Un locuteur ne se retrouve pas à la fois dans le corpus d’apprentissage et de test. Les performances sont environ de 50 % lors du test pour les hommes et les femmes, et ceux avec la combinaison de réseaux, mais également avec un seul réseau de taille plus importante.

Quelles sont les capacités de perception des attitudes prosodiques par les être humains en Français ?