IV.1.1.Pourcentage d’intervalles vocaliques au cours du temps

Ramus et coll. (1999) ont montré que le rapport de la durée de l’ensemble des voyelles par la durée de la totalité des consonnes pour une phrase est caractéristique d’une langue. Ce paramètre permettait de retrouver les trois grandes classes rythmiques des langues (accentuelles, syllabiques et moraïques). Le graphique suivant (cf. Figure 3.5) prend en compte l’évolution au cours du temps de ce paramètre pour chacune des 5 langues européennes du corpus MULTEXT. Il s’agit de la moyenne de ce rapport à travers l’ensemble des phrases disponibles de ce corpus. L’axe des ordonnées indique la valeur du pourcentage vocalique pour une durée inférieure ou égale à l’abscisse.

Figure 3.5 Evolution du pourcentage vocalique au cours du temps pour le corpus MULTEXT.
Figure 3.5 Evolution du pourcentage vocalique au cours du temps pour le corpus MULTEXT.

Ce graphique (cf. Figure 3.5) montre que les langues ne présentent pas la même progression au cours du temps. Par exemple, entre 1 et 2 secondes l’Anglais se démarque de l’Italien alors qu’à partir de 4s de signal les deux langues semblent se confondre. En tenant compte de l’évolution temporelle du pourcentage vocalique il serait plus facile de distinguer certaines langues à un moment précis dans le temps. Est-ce que cette évolution au cours du temps peut être utilisée pour l’identification automatique des langues ?

Les valeurs du pourcentage vocalique se stabilisent autour de 4s pour les corpora OGI-MLTS et MULTEXT. A travers ces corpora, les classes rythmiques des langues sont respectées. Les langues accentuelles (Allemand, Anglais, Hindi) ont un pourcentage vocalique moins élevé que les langues syllabiques (Espagnol, Français), qui ont un pourcentage vocalique inférieur aux langues moraïques comme le Japonais. Le Chinois Mandarin n’a pas de classe rythmique reconnue. L’Italien a un comportement plus proche de la classe accentuelle (Figure 3.5).

Figure 3.6 Evolution du pourcentage vocalique au cours du temps
Figure 3.6 Evolution du pourcentage vocalique au cours du temps pour le corpus OGI-MLTS.

Ces graphiques (Figure 3.5 et 3.6) indiquent que le pourcentage de segment vocalique subit une évolution propre à chaque langue. Il doit donc être possible de prendre en compte cette évolution, pour identifier automatiquement les langues.