III.5.Le traitement automatique de la prosodie

Les tâches abordées nécessitant le traitement de la prosodie pourraient être réalisées par un système de transcription de la prosodie (cf. Chapitre 2, section III.2.2). Ces modèles ont été appliqués à la synthèse vocale, la reconnaissance automatique des actes de dialogues ou comme composant d’un système de reconnaissance de la parole, pour diminuer le taux d’erreurs (Taylor, 2000).

J. Farinas (2002) a proposé dans sa thèse un système d’identification des langues à partir d’un étiquetage prosodique, incluant une partie seulement des symboles du système INTSINT. Les résultats obtenus sont cependant inférieurs à la modélisation rythmique qu’il propose. Cependant, les autres tâches que nous avons étudiées n’ont pas été effectuées, à notre connaissance, avec des systèmes automatiques de description de la prosodie ou de l’intonation. Il va de soi qu’une telle description pourra être appliquée à l’Identification Automatique des Langues, des attitudes prosodiques ou des catégories lexicales. Néanmoins, un certain nombre des contraintes respectées dans ce travail qui n’ont pas été repertoriées dans des travaux précédents :

  1. Plusieurs langues doivent pouvoir être prises en compte. Généralement les systèmes de transcription nécessitent un expert en prosodie pour chaque langue au moins lors de l’apprentissage des données. Toutefois, Buhmann et coll. (2000) ont proposé une modélisation de l’intonation pour plusieurs langues à l’aide d’un réseau récurrent. Mais, celle-ci s’appuie en priorité sur des universaux linguistiques, et n’a pas été testée dans le cadre de l’identification des langues, qui se fonde justement sur leurs différences. En contrepartie, le modèle INTSINT (Hirst et Di Cristo, 1998) propose une alternative intéressante, en limitant les présupposés théoriques, contraignant le modèle à une langue déterminée (Campione, 2001). Cependant, l’application de ce modèle à l’IAL ne fournit pour l’instant pas de résultats satisfaisants à ce jour (Farinas, 2003).
  2. Les alphabets prosodiques sont le plus souvent construits à partir d’une étude précise des différents niveaux linguistiques, et négligent des informations extra-linguistiques comme les émotions. Par conséquent, il existe ainsi peu de possibilités que ces modèles soient adaptées au traitement des émotions. Le codage INSINT éviterait probablement cet écueil en vertue de ses fondements théoriques.
  3. En outre, nous proposons une modélisation d’un déficit particulier pour la syntaxe en rapport avec la prosodie. Est-il possible de modéliser ce type de déficit avec un système de transcription automatique de la prosodie ?

Le travail proposé dans cette thèse apparaît comme complémentaire des approches traditionnellement utilisées en prosodie. Comment se situe le réseau TRN par rapport à d’autres modèles inspirés par les travaux en neuroscience ?