II.3.2.La fréquence fondamentale et l’intensité

Trois systèmes (deux statistiques et un connexioniste) ont fondé leur approche sur l’intonation et l’intensité pour identifier les langues.

Thymé-Gobbel et Hutchins (1996) ont étudié un certain nombre d’indices acoustiques 80 pour discriminer des paires de langues du corpus OGI-MLTS (Anglais, Espagnol, Japonais, Mandarin). La tonalité apparaît comme l’indice le plus efficace en particulier lorsqu’il est combiné avec la position de la phrase. D’après Laver (1994), une différence de 1 Hz dans la F0 peut être relevée, tandis que la limite se situe autour de 10 à 40 ms pour la durée des segments. Ainsi, la F0 est caractérisée par 430 niveaux perceptibles, alors que le rythme n’aurait que 25 catégories distinguables. Dans ce cas, l’intonation offre un plus grand nombre de variations possibles entre les langues. Les performances oscillent entre 73 % et 83 %, mais sont maximales pour une combinaison différente d’indices fonction des langues à discriminer.

Itahashi et Du (1995) proposent une analyse discriminante de 21 paramètres concernant F0 et l’intensité (écart-type, skewness et kurtosis, corrélation ente la F0 et intensité, etc.). 6 langues du corpus OGI-MLTS ont été retenues, et les locuteurs sont tous des hommes. Seul le score d’apprentissage est indiqué : 63.3 % d’identification pour 20s de signal. Itahashi, Kiuschi et Yamamoto (1999) présentent les performances de leur système fondé sur la F0 pour 10 langues, celles-ci atteignent 37 % en apprentissage et 28 % en validation, des scores supérieurs au hasard.

Cummins et coll. (1999) utilisent des réseaux récurrents pour réaliser la discrimination de 10 paires de langues du corpus OGI-MLTS à partir du décours temporel de F0 et de l’intensité. Pour l’enveloppe de l’intensité, les résultats varient entre 72.2 % et 50.7 %. Pour la trajectoire de F0, les performance s’échelonnent de 47.4 % à 73.2 %. Le Français se détache clairement de toutes les autres langues. Le Japonais et le Mandarin sont extrêmement confondus. Lorsque les deux indices (F0 et intensité) sont combinés les performances sont globalement 81 améliorées et varient de 48.8 % à 78.2 %. Les taux de reconnaissance sont ensuite représentés sous forme d’un arbre, qui rassemble entre elles les langues dont les scores sont proches. Ainsi le Mandarin, l’Espagnol et le Français apparaissent ensemble, comme représentant des langues syllabiques, et l’Anglais et l’Allemand, comme caractéristiques des langues accentuelles.

Considérés seuls, les systèmes d’IAL fondés sur la prosodie n’approche pas les performances des systèmes phonotactiques. Quel peut être l’apport d’un système prosodique à un système d’IAL existant ?

Notes
80.

Le système mesure 224 motifs individuels : différence de F0 d’une syllabe à l’autre, par rapport au maximum, durée des syllabes, différence d’amplitude entre les syllabes, par rapport au maximum, transformé de Fourier pour les basses fréquences, nombre de syllabes par secondes, position de la phrase.

81.

Pour le Mandarin et le Japonais il apparaît que le réseau ne sait pas « trier » les entrées pour utiliser seulement l’amplitude qui permet une meilleure distinction de ces langues, que lorsque la F0 et l’intensité sont combinées.