V.4.Simulation de la discrimination des langues en fonction des classes rythmiques

Nos expériences consacrées à l’Identification Automatique des Langues ont montré les difficultés du traitement d’un nombre élevé de langues. La technique employée repose sur des connaissances acoustiques du signal. La modélisation proposée s’apparente plus aux mécanismes utilisés par les nourrissons, qui sont influencés par la voix du locuteur, et des indices prosodiques comme le rythme ou la tonalité (Bond et coll., 1998).

Dans le même temps, nous avons montré qu’il est possible d’utiliser une représentation spectrographique sans segmentation avec le réseau TRN pour effectuer cette identification. Il est intéressant de vérifier que cette représentation peut rendre compte des propriétés rythmiques des langues, comme la segmentation en consonnes et voyelles (Dominey et Ramus, 2000) et donc fournir un modèle de réseau plus complet pour le traitement de la parole, puisque le signal de parole est traité directement. Nous avons donc effectué les simulations TRN avec trois représentations spectro-temporelles de la fréquence fondamentale. Seules les représentations tenant compte de l’intensité permettent de distinguer l’Anglais du Japonais, qui appartiennent à deux classes rythmiques distinctes.

Nous avons montré que pour pouvoir retrouver les profils de performances des nourrissons (Nazzi et coll., 1998) il fallait éliminer les valeurs d’intensité les plus faibles de la représentation spectro-temporelle de la fréquence fondamentale.

Ainsi des propriétés acoustiques, sans segmentation phonétique, permettent d’identifier des langues uniquement lorsqu’elles appartiennent à des classes rythmiques distinctes. Le fait que le réseau TRN soit influencé par les classes rythmiques des langues à discriminer suggère que le mécanisme de traitement global que nous proposons peut refléter les propriétés du traitement observé chez les enfants (Nazzi et coll., 1998).

Il faut aussi remarquer que même si nous retrouvons le même type de performance, le mécanisme que nous proposons peut être différent de celui présent chez le nourrisson, ou chez les singes. Cependant, le modèle que nous utilisons est initialement inspiré de l’architecture fronto-striatale du singe (Dominey et coll., 1995), et simule l’apprentissage de séquences sensori-motrices. Ceci renforce l’idée qu’un tel mécanisme puisse être également présent chez le singe pour traiter des séquences sonores.

De nombreux articles ont démontré qu’il était possible de retrouver ces classes rythmiques. Néanmoins, ils font appel à une segmentation du signal en consonnes / voyelles effectuée soit à la main (Grabe et Low, 2002 ; Ramus, 1999), soit à partir d’une segmentation automatique (Pellegrino et coll., 2002 ; Galvès et coll., 2002). Le réseau récurrent temporel ne nécessite pas de segmentation explicite en unité proche des phonèmes.

Nos expériences menées en discrimination suggèrent que l’intensité des différentes bandes de fréquences distingue les langues. Cependant, il reste possible que cela soit lié aux conditions d’enregistrement (comme la distance entre le locuteur et le micro). Afin de vérifier que ce sont bien les propriétés rythmiques des langues qui sont à l’origine du profil de discrimination, les réseaux TRN devraient être testés avec juste les phrases synthétisées en stimuli « sasasa » (Ramus, 1999). En outre, l’utilisation de carte de Kohonen (1982) pour classer les motifs fournis par le réseau TRN permettrait de simuler un apprentissage non supervisé. Il ne resterait plus qu’à simuler le changement de succion pour répliquer les expériences effectuées avec les nouveau-nés (Nazzi et coll., 1998 ; Ramus, 2002b), avant de tester notre modèle avec d’autres langues.