IV.4.Simulation de discrimination de langues

Les expériences précédentes ont permis d’adapter le réseau TRN au problème de l’IAL. Notre objectif est maintenant de tester si le réseau TRN permet de retrouver les résultats donnés par les expériences perceptuelles lors de la discrimination de langues de classes rythmiques différentes (Nazzi et coll., 1998). Effectivement, il a été démontré que le réseau TRN est sensible à cette différence rythmique, lorsque les langues sont représentées par une succession de consonnes et voyelles (Dominey et Ramus, 2000). Cette différence liée à la contrainte temporelle est-elle toujours perçue par le réseau TRN avec une représentation spectrographique des basses fréquences ?

Dans cette section, trois langues extraites du corpus LSCP (Nazzi et coll., 1998) seront utilisées : Japonais (langue moraïque), Anglais, et Néerlandais (langues accentuelles). Seul l’encodage donné par le réseau TRN à la fin d’une phrase sera retenu. La méthode d’accumulation ne sera pas employée. Les performances sont indiquées pour une population de 10 réseaux. En outre, l’information transmise au réseau sera contenue dans les basses fréquences, comme pour l’expérience réalisée avec les nourrissons (Nazzi et coll., 1998).

Trois représentations (calculées à partir du logiciel PRAAT 90 ) ont été testées pour transmettre la prosodie des phrases au réseau TRN :

  1. Filtres alignés sur une échelle de perception Mel (algorithme Melfilter de PRAAT, Figure 3.13)
  2. Un spectrogramme à bande étroite avec une fenêtre d’analyse de 80 ms en tenant compte que des valeurs inférieures à 400Hz (Figure 3.14 gauche).
  3. Un calcul de la valeur de F0 seule à partir d’une méthode d’autocorrélation. (Figure 3.14 droite).

Dans tous les cas, toutes les valeurs d’activations supérieures à 100 sont ramenées à 100. Les deux premières mesures donnent un vecteur de valeurs toutes les 5 ms, et utilisent une fenêtre d’analyse large pour obtenir les valeurs de fréquences basses, voisine de la fréquence fondamentale.

Figure 3.13 Représentation de F0 par l’algorithme Melfilter.
Figure 3.13 Représentation de F0 par l’algorithme Melfilter.
Figure 3.14 Représentation de F0, à gauche par un spectrogramme, à droite à partir d’une méthode d’autocorrélation, donnant une valeur numérique de F0, qui est représentée à l’aide d’une courbe de Gauss fixe.
Figure 3.14 Représentation de F0, à gauche par un spectrogramme, à droite à partir d’une méthode d’autocorrélation, donnant une valeur numérique de F0, qui est représentée à l’aide d’une courbe de Gauss fixe.

La figure 3.15 présente la moyenne des performances obtenues par 10 réseaux récurrents sur le corpus de validation pour identifier les paires de langues Anglais/Japonais et Anglais/Néerlandais. Quelle que soit la méthode utilisée, la discrimination entre l’Anglais et le Japonais est plus aisée qu’entre l’Anglais et Néerlandais. Pour les représentations Melfilter et le spectrogramme, les performances dépendent des classes rythmiques des langues, comme pour les nourrissons (Nazzi et coll., 1998) (ANOVA 91 : 1) Melfilter : p=0.001, F=14.7 ; 2) Spectrogramme p<0.001, F=22).

Figure 3.15 Performances de discrimination des langues
Figure 3.15 Performances de discrimination des langues en fonction des différentes descriptions de la prosodie.

Lorsque la F0 est transmise seule, les réseaux ne parviennent pas à distinguer les langues quelle que soit leur classe rythmique (ANOVA : 3) p=0.77, F=0.09). Les performances sont faibles dans le cas où seule la F0 est décrite au cours du temps (62 % et 63 %, le seuil du hasard est à 59 %). Lorsque l’intensité est disponible (spectrogramme à bande large), les performances augmentent (78 %), mais uniquement dans le cas ou les langues appartiennent à des classes rythmiques distinctes.

La première représentation utilisée donne de bonnes performances quelles que soient les conditions de classe rythmique. De surcroît, les performances sont supérieures à 80 % dès la première trame de signal. Elle inclut donc des informations supplémentaires. Cette représentation étant fortement bruitée, un seuil variable est appliqué de manière à ne tenir compte que des valeurs qui dépassent ce seuil. Plus le seuil est élevé, plus le signal est appauvri.

Figure 3.16 Représentation de F0 par l’algorithme Melfilter
Figure 3.16 Représentation de F0 par l’algorithme Melfilter (La valeur du seuil est de 30 à gauche et 50 à droite).

Lorsqu’un seuil de 50 est appliqué nous retrouvons les performances rendant compte des classes rythmiques (ANOVA : p=0.001, F=14.7). Pour un seuil supérieur à 70, la plupart des fichiers Anglais ont des valeurs nulles. Dans ce cas, l’Anglais est discriminé des deux autres langues, parce qu’il n’est représenté par aucune valeur.

Nous retrouvons des résultats obtenus par Ramus (1999) avec des sujets adultes, qui n’ont pas de connaissances a priori sur ces langues. Ceux-ci ne distinguent pas l’Anglais du Japonais à partir de l’intonation seule (condition ‘aaaa’ 51 %). Cependant, notre représentation de F0, obtenue à partir de l’autocorrélation, contient quelques informations rythmiques, puisque la courbe de F0 n’est pas interpolée.

Pour conclure sur l’origine des indices permettant d’effectuer les discriminations de l’Anglais et du Japonais, il faudrait pouvoir utiliser la synthèse ‘sasasa’ de façon à contrôler tous les paramètres. Les conditions d’enregistrement influent probablement sur l’intensité des fichiers. Par exemple, les fichiers Japonais pourraient avoir un volume sonore légèrement plus fort que les fichiers des deux autres langues. Néanmoins, si une distinction s’opère par le rythme, elle doit s’appuyer sur des différences d’intensité des basses fréquences du signal.

Figure 3.17 Taux de discrimination en fonction du seuil
Figure 3.17 Taux de discrimination en fonction du seuil appliqué à la représentation donnée par l’algorithme Melfilter Les performances peuvent atteindre 41 %, qui est le pourcentage de phrases Anglaises. Dans le cas où les prototypes des deux langues sont confondus, le réseau répond toujours Anglais. Le même graphique devrait pouvoir être obtenu avec le spectrogramme à bande étroite, en modifiant le coefficient multiplicatif. .
Notes
90.

Logiciel dédié à l’analyse du signal de parole (disponible gratuitement sur internet : http://www.praat.org)

91.

ANOVA avec un seul facteur Classe rythmique (identique ou différente).

92.

Les performances peuvent atteindre 41 %, qui est le pourcentage de phrases Anglaises. Dans le cas où les prototypes des deux langues sont confondus, le réseau répond toujours Anglais. Le même graphique devrait pouvoir être obtenu avec le spectrogramme à bande étroite, en modifiant le coefficient multiplicatif.