IV.3.1.Cochléogramme

Nous proposons donc maintenant d’utiliser une autre représentation du signal de parole, à savoir une description de la cochlée (ou cochléogramme, voir Figure 3.10), qui est l’outil de décomposition spectrale de l’oreille. L'excitation de la membrane basilaire dans l'oreille interne est modélisée au cours du temps, en réponse à un échantillon de parole. Le cochléogramme accentue les basses fréquences qui sont consacrées à la prosodie, contrairement à un spectrogramme classique. Ainsi la parole est codée par une collection de trames de 256 composants chaque 10 ms. Un passage de langue est entièrement décrit par une matrice unique calculée par le logiciel de PRAAT (http://www.praat.org) contenant l'intonation (F0) et l'information spectrale décrite en fonction du temps.

Nous envisageons deux expériences :

  1. Les performances d’identification des cinq langues du corpus MULTEXT ;
  2. Les performances en discrimination de trois paires de langues du corpus OGI-MLTS.
Figure 3.10 Cochléogramme d’un extrait de parole (en abscisse, le temps par pas de 10ms), en ordonnée les fréquences, 256 unités d’entrées du réseau) Le cercle en trait continu indique le bruit de fond. Le cercle pointillé indique la parole. Le cercle grisé indique une respiration.
Figure 3.10 Cochléogramme d’un extrait de parole (en abscisse, le temps par pas de 10ms), en ordonnée les fréquences, 256 unités d’entrées du réseau) Le cercle en trait continu indique le bruit de fond. Le cercle pointillé indique la parole. Le cercle grisé indique une respiration.
Figure 3.10 Cochléogramme d’un extrait de parole (en abscisse, le temps par pas de 10ms), en ordonnée les fréquences, 256 unités d’entrées du réseau) Le cercle en trait continu indique le bruit de fond. Le cercle pointillé indique la parole. Le cercle grisé indique une respiration.
Figure 3.10 Cochléogramme d’un extrait de parole (en abscisse, le temps par pas de 10ms), en ordonnée les fréquences, 256 unités d’entrées du réseau) Le cercle en trait continu indique le bruit de fond. Le cercle pointillé indique la parole. Le cercle grisé indique une respiration.

Afin de tester la validité de cette représentation, la même expérience que précédemment a été réalisée sur le corpus MULTEXT à partir des fichiers entiers contenant la totalité du signal acoustique. Cette première expérience (Figure 3.11) montre que le bruit de fond est suffisamment corrélé avec les langues à identifier, pour obtenir un taux d’identification de 60 % alors que le signal de parole n’est pas encore présent. Les performances sont illustrées pour les deux méthodes Accumulation et Une Trame (i.e. une seule trame de signal est considérée) mais sans le TRN.

Dans un second temps, nous avons testé le cochléogramme sur trois paires de langues du corpus OGI-MLTS. Nous retrouvons de bonnes performances dans le cas de la distinction Allemand / Anglais (96 %) et également pour l’Hindi et l’Anglais (81 %) et ce pour la première trame du signal. En revanche, la distinction entre l’Hindi et l’Allemand ne présente pas de bonnes performances ni pour la première trame (42 %), ni lorsque 5 secondes de signal sont prises en compte (55 %).

Figure 3.11 Performance pour deux méthodes de représentation du spectre.
Figure 3.11 Performance pour deux méthodes de représentation du spectre.