I.1.Identification Automatique des Langues

Travailler sur l’Identification Automatique des Langues a permis de tester graduellement chacune des dimensions comprises dans le signal de parole. En premier, le rythme a été testé à partir d’une segmentation automatique du signal de parole en voyelles et consonnes (Pellegrino, 1998). Cette première dimension a permis d’expérimenter plusieurs méthodes d’évaluation du réseau récurrent temporel (TRN). En se basant sur une sélection des poids des connexions, le réseau le plus performant en validation atteint 50 %. Les performances atteignent 65 % avec ce même réseau et une procédure de validation croisée. Cependant, ce résultat serait sans doute inférieur avec une sélection effectuée pendant l’apprentissage.

Sur cette base, nous avons poursuivi notre travail en complétant l’information transmise au réseau TRN. Nous avons pu alors transmettre des représentations spectrographiques (cochléogramme, Melfilter et spectrogramme) au réseau TRN qui ont les propriétés suivantes: 1) aucune dimension prosodique n’est distinguée des autres, 2) les structures temporelles sont détaillées (résolution de 30 ms), 3) le signal n’est pas segmenté.

Cependant, il semble que des informations supplémentaires, dues aux conditions d’enregistrement des langues, facilitent cette identification (jusqu’à 90 % pour 100 ms de signal). Effectivement nous n’avons pas introduit de méthode pour isoler le signal de parole. Ces informations sont présentes dans le début des fichiers du corpus MULTEXT, lorsque le signal de parole n’est pas encore présent. En conséquence, nous avons supprimé les deux premières secondes de signal. Dans ces conditions, le TRN encode efficacement les séquences spatio-temporelles d’événements acoustiques qui traduisent le signal de parole (65 % d’identification). Il est donc possible d’appliquer le réseau TRN à l’IAL, si une mémoire auxiliaire (méthode d’accumulation) des états internes du réseau TRN est ajoutée.

Nous avons alors décidé d’appliquer le réseau TRN (sans mémoire auxiliaire) à la discrimination des langues : Anglais, Japonais et Néerlandais. Nous retrouvons les performances des nouveau-nés (Nazzi et coll., 1998), pour la discrimination de langues de différentes classes rythmiques. Effectivement, le regroupement du TRN et d’une représentation spectrographique du signal permet de dissocier l’Anglais du Japonais, deux langues appartenant à ces classes rythmiques distinctes. Mais l’Anglais ne peut être distingué du Néerlandais, car ces deux langues dépendent d’un même type rythmique (langues accentuelles). Cette simulation a été effectuée sans chercher à segmenter le signal de parole, alors que toutes les études précédentes établissent les différences de classes rythmiques sur une segmentation du signal (automatique dans Pellegrino et coll., 2002 et Galvès et coll., 2002 ; manuelle dans Ramus et coll., 1999 et Grabe et Low, 2002 ). Dans ce contexte, le système employé reflète le profil de discrimination donné par les nourrissons (Nazzi et coll., 1998).

En conclusion, le rythme marqué par des évènements sonores décrits par une représentation spectrographique peut être traité par le TRN pour identifier les langues. Ce rythme est l’objet d’une caractérisation globale des langues. Le réseau TRN peut-il traiter des contours décrits sur de courtes phrases ?