V.Discussion

Le réseau récurrent temporel a pu être adapté à la reconnaissance des attitudes prosodiques et au traitement de la fréquence fondamentale. Ainsi ce réseau pouvait distinguer les langues à partir de leur structure temporelle donnée par les consonnes et les voyelles (Dominey et Ramus, 2000). Dans ce chapitre, la structure prosodique est décrite par les variations de la fréquence fondamentale. Le réseau ne traite plus une suite de symboles ou d’éléments discrets (Dominey et Ramus, 2000), mais une valeur (F0) qui évolue de façon continue (pour les parties voisées du signal de parole). Ainsi, le réseau ne nécessite pas une segmentation manuelle du signal de parole. L’approche de Buhmann et coll. (2000) requiert une segmentation par syllabe pour apprendre l’intonation de 6 langues. Les approches statistiques (classifieur gaussien) et connexioniste (SRN) avaient recours à des valeurs de F0, ou de durées définies, sur chaque syllabe des phrases exprimées par le locuteur.

Le taux d’identification in fine est de 80 % sur l’ensemble des 6 attitudes prosodiques, en employant uniquement la trajectoire de la fréquence fondamentale. En outre, nous montrons que les performances du réseau TRN peuvent se généraliser aux variations temporelles. En effet ce réseau n’est pas trop perturbé lorsque les données qu’il a apprises sont ralenties (de 80 % à 60 % pour un facteur 2 de ralentissement). Mais nous n’avons pas de point de comparaison chez l’être humain. Effectivement, cette expérience est simulée et n’a pas été effectuée sur avec des sujets humains parlant lentement.

Une comparaison directe avec les études d’identification automatique des émotions ne peut être envisagée, dans la mesure où le matériel testé est différent (ajout de deux modalités syntaxiques, six attitudes en tout et utilisation exclusive de F0). Cependant, notre étude répond avec un taux de 80%, qui s’inscrit dans la gamme des taux d’identification variant entre 55 % (McGilloway et coll., 2000) et 97 % (Oudeyer, 2003). Toutefois, nous considérons aussi un seul locuteur. La plupart du temps, les méthodes n’ont pas été testées avec des locuteurs distincts, en apprentissage et validation. Or la variabilité entre les locuteurs est le problème le plus crucial pour le traitement de la parole. En outre, il n’existe pas de test de reconnaissance des émotions en parole continue, ce qui constituera un nouveau point de recherche pour cette thématique.

Certaines émotions ont des caractéristiques communes, ainsi la colère, la peur, la joie, et la surprise ont une amplitude et valeur moyenne plus élevées pour la fréquence fondamentale. Il est donc possible que ces caractéristiques communes altèrent les performances. Pour améliorer les performances d’identification, les attittudes prosodiques ayant des caractéristiques communes devraient être regroupées avant d’être identifiées séparément. Il est aussi probable que l’ajout d’autres dimensions à la fréquence fondamentale (comme l’intensité des basses fréquences) permettraient d’accroître les performances.

En conclusion, le réseau TRN est capable de traiter la fréquence fondamentale pour identifier différentes attitudes prosodiques, ainsi que la structure temporelle de la parole pour distinguer des langues de classes rythmiques différentes. Ces deux études nécessitent donc que le réseau TRN encode des passages de parole relativement long (supérieures à une seconde) pour pouvoir extraire les régularités et les contours permettant de répondre à une tâche de classification.

Pour répondre à notre hypothèse de Continuum Temporel, il faut que le réseau TRN puisse encoder des données plus courtes de l’ordre de mots. Ce point va être éclairci dans le chapitre suivant pour identifier les mots appartenant à des catégories syntaxiques différentes, et ce à partir de l’information acoustique englobée dans ces mots.