Identification automatique

Bien que la prosodie constitue une source d’information importante pour l’identification des langues, la modélisation de certains de ses aspects posent encore quelques difficultés qu’on peut résumer par le fait que la plupart des systèmes établis dans cette optique ne visent pas la performance mais plutôt la vérification des théories prosodiques. De plus, d’autres systèmes dirigés plutôt vers les performances et appliqués sur des bases de données conséquentes ne font aucun lien avec les théories linguistiques (Rouas, 2005).

Les niveaux de l’analyse prosodique proposés par les théories et/ou les modèles phonologiques, constituent pourtant une source d’inspiration des modèles de caractérisation et de description de l’IAL. Par exemple, l’approche autosegmentale a inspiré des systèmes qui tendent à mettre en lumière le rapport entre intonation et syntaxe. Nous citons en ce sens le système ToBI pour l'anglais (Beckman et Hirschberg, 1994 ; Silverman et al. 1992), le modèle Intsint appliqué à sept langues européennes (Hirst et Di Cristo, 2000 ; Di Cristo et Hirst, 1996), ou encore le IViE (Intonational Variation in English, Grabe 1998) qui s’inspire de ToBI et se rapporte à l’anglais. Le système de Fujisaki (1984) et celui de Mertens, (1987) et Mertens et d'Alessandro (1995) se base sur l’approche holistique. Le premier s’inscrit dans la perspective superpositionnelle qui est fondée sur la superposition de domaines comme par exemple, la composante accentuelle et la composante syntagmatique, et le deuxième, celui de Mertens, utilisé pour le français et le hollandais, est établi à partir de corrélats acoustiques et perceptifs 43 .

Des systèmes plus récents sont conçus dans le but de vérifier les hypothèses soutenant la classification des langues en catégories rythmiques. S’inspirant des modèles de Ramus et de Grabe, Rouas et al. (2004) ont proposé une nouvelle approche pour l'identification automatique des langues, basée sur une modélisation des données rythmiques afin de les rendre exploitables et de les appliquer sur des corpus conséquents. Le modèle -– qui ne nécessite pas de données étiquetées manuellement – propose l’extraction automatique d’une nouvelle unité qu’ils appellent la pseudo-syllabe. L’étiquetage automatique est réalisé comme suit :

Le signal de parole est segmenté en motifs correspondant à la structure CnV. Par exemple, la séquence CCVVCCVCVCCCVCVCCC est étiquetée en 6 pseudo-syllabes : CCVV|CCV|CV|CCCV|CV|CCC. Les paramètres utilisés pour caractériser les pseudo-syllabes sont extraits automatiquement. Pour chaque pseudo-syllabe, trois paramètres son calculés ; 1) la durée totale (en ms) des segments consonantiques : D ; 2) la durée totale (en ms) du segment vocalique : D ; 3) la complexité de la pseudo-syllabe mesurée par N c, soit le nombre de segments consonantiques.

En appliquant les paramètres de pseudo-syllabe sur un corpus de parole lue en sept langues : français, anglais espagnol, italien, allemand, japonais et mandarin, les auteurs ont montré que D vpermet de séparer le groupe français-espagnol d’un groupe formé par l’ensemble des autres langues. Le paramètre D cpermet la distinction entre le français et l’espagnol dans le premier groupe, ainsi que celle du mandarin dans le deuxième groupe. La combinaison (D c, N c), montre un regroupement en classes rythmiques, avec un groupe de langues accentuelles (anglais, allemand et mandarin), un groupe de langues syllabiques (français, espagnol), et un groupe intermédiaire (japonais, italien).

Les auteurs ont réalisé des expériences d’IAL en se basant sur : les paramètres de Ramus, ceux de Grabe et ceux de la pseudo-syllabe. Les taux d’identification correcte sont de 50,2% à partir des paramètres de Ramus ; de 67% pour les paramètres de Grabe (2000, 2002) est de 68,7 % pour la pseudo-syllabe, ce qui correspond à pour 388 identifications correctes sur 565 stimuli. Ces résultats confirment la pertinence de la modélisation du rythme à partir de la pseudo-syllabe. Afin de valider leur approche, les auteurs ont regroupé les langues en fonction des typologies rythmiques effectuées. Le taux d’identification correcte obtenus sur la base des groupes rythmiques est de 84,9%. Ce résultat confirme les théories linguistiques sur les propriétés rythmiques des langues.

D’autres approches d’identification automatique des langues se sont récemment basées sur des unités de type syllabique, en mettant l’accent sur la pertinence de cette échelle temporelle. La plupart du temps, la méthodologie employée consiste à transposer des approches issues du niveau infra-phonémique (mélanges de lois gaussiennes et modèles de Markov cachés pour l’information phonétique ; grammaires statistiques n-grammes pour l’information phonotactique) à des unités plus longues, analogues à des syllabes. Ces unités sont soit obtenues par une segmentation non supervisée du signal (Nagarajan & Murthy, 2006), soit construites à partir d’une reconnaissance phonétique de manière indépendante des langues (par exemple, Martin et al., (2006) génère des tri-grammes phonétiques) ou en appliquant des règles de syllabation spécifiques à chaque langue considérée (Zhu & Adda-Decker, 2006). Parmi ces systèmes, celui décrit dans Martin et al. (2006), est le seul où la dimension prosodique est explicitement prise en compte par la modélisation du F0 et de l’Energie (méthodologie issue de Adami & Hermansky, 2003). Ainsi, on constate que si l’intérêt de modèles définis à l’échelle de la syllabe se confirme dans les systèmes automatiques d’identification, la démarche de modélisation explicite du rythme demeure encore inaboutie.

Notes
43.

Pour une revue détaillée de ces modèles, voir Rouas (2005).