II.1.3.Systèmes supervisés

L’approche la plus classique est constituée d’un système de reconnaissance de phonèmes, qui transforme le signal de parole en suite d’éléments discrets. Enormément de progrès ont été effectués dans le traitement de la parole indépendamment du locuteur à partir de méthodes comme les Chaînes de Markov Cachées (HMM) ou les réseaux de neurones artificiels. Ces méthodes d’apprentissage permettent de modéliser les phonèmes en fonction de leur contexte. Cet apprentissage s’effectue sur un ensemble de signaux de paroles, pré-segmentés et étiquetés en phonèmes par des experts phonéticiens. Un modèle de la langue est alors établi par un traitement statistique de leur distribution.

Ces systèmes incluent donc des connaissances a priori sur le signal de parole. Ils sont donc coûteux, puisqu’ils nécessitent un traitement humain qui permet de localiser les phonèmes dans le signal de parole. Effectivement cette étape est nécessaire pour effectuer l’apprentissage des systèmes reconnaissant les phonèmes, même si ils ne sont pas utilisés lors de la reconnaissance de la langue pendant la phase de validation.

Il n’existe actuellement pas assez de données pour permettre l’utilisation d’une reconnaissance de phonèmes pour toutes les langues. Seulement 6 langues du corpus OGI-MLTS sont étiquetées. Cependant, il est possible de se limiter à celles-ci, en ne travaillant qu’avec 6 systèmes de reconnaissance de phonèmes et d’utiliser 11 modèles phonotactiques, pour chaque modèle acoustique, soit 6x11 modèles phonotactiques (Muthusamy et coll., 1993).

Muthusamy et coll. (1993) ont comparé des méthodes basées sur des composantes acoustiques (70 %), des catégories phonétiques larges (83.2 %) et une classification phonétique plus fine (86.3 %) sur une tâche de discrimination de l’Anglais et du Japonais, extraits du corpus OGI-MLTS. Des classes phonétiques détaillées permettent une identification supérieure à celles obtenues avec des catégories phonétiques plus larges, même si ces dernières contiennent moins d’erreurs lors du décodage phonétique.

Dans le cadre de l’identification des langues européennes (Anglais, Français, Espagnol, Portugais, Allemand et Italien), Caseiro arrive à des scores de 79 % (pour 5 secondes de signal de parole), en utilisant un seul système de reconnaissance des phonèmes du portugais (Chaîne de Markov Cachées). Il faut pourtant recourir à un dictionnaire de prononciation et une transcription orthographique (Caseiro et Transcoso, 1998). La même optique est employée pour l’identification de 10 langues du corpus OGI-MLTS avec 10s de signal (59.7 % ; Lamel et Gauvain, 1994).

Une implémentation unifiée des dimensions phonotactique, acoustique, phonétique et prosodique est décrite par Hazen et Zue (1994 ; 1997). Le système comprend trois étapes :
1) un pré-traitement qui permet d’obtenir une description acoustique du signal 64 , 2) une reconnaissance phonétique à partir du pré-traitement, 3) un classifieur qui identifie la langue. La fréquence fondamentale est traduite par son logarithme et sa valeur moyenne lui est soustraite. La reconnaissance phonétique est assurée par l’algorithme SUMMIT avec
87 unités phonétiques indépendantes de la langue. La normalisation des canaux 65 et l’optimisation des paramètres induit une augmentation des performances. Ils atteignent
78.1 % d’identification pour 10 langues d’OGI-MLTS (45s de signal). Des système équivalents atteignent 88.8 % (Zissman et Singer, 1995) et 90.8 % pour Yan et Barnard (1995).

Récemment les performances de différents systèmes d’identification automatique des langues ont été comparées. Les systèmes les plus performants atteignent 10 % d’erreur pour 10 langues à identifier (Zissman et Berkling, 2001). Cependant, de tels résultats ne peuvent être obtenus qu’à partir de nombreuses heures de discours étiqueté, ce qui pose problème pour l’identification de nouvelles langues. Le recours à des systèmes non supervisés est un palliatif à ce défaut.

Notes
64.

Les signaux de paroles sont traduits par 14 coefficients MFCC toutes les 5 ms, avec une fenêtre de hamming de 25.6ms, et une transformée de Fourrier discrète. Les variations de chaque canal sont également prises en compte (14 coefficients delta-MFCC).

65.

Une normalisation aveugle des canaux est effectuée : pour chaque phrase, la valeur moyenne de chaque canal est calculée et soustraite à chacune des valeurs individuels.