III.1.2.Le corpus OGI-MLTS 85

Il s’agit du premier corpus spécifiquement dédié à l’IAL. Ce corpus est composé uniquement de discours non contraint et est utilisé comme référence dans les publications ayant trait à l’IAL. Les travaux les plus récents en IAL s’appuient généralement sur ce corpus pour pouvoir comparer leurs résultats entre eux. Il a été considéré comme base lors de la première évaluation des systèmes d’IAL promulguée par NIST (mars 1993) à laquelle ont participé 8 sites de recherches américains. De cette base constituée de 22 langues, nous n’avons retenu que 6 langues (Anglais, Japonais, Espagnol, Mandarin, Hindi, et Allemand). Il s’agit des langues extraites de l’extension (OGI-MLTS 22 langues) du corpus initial.

Chacune de ces langues est décrite par la durée de chaque phonème ainsi que par la catégorie du phonème rencontrée. Cette catégorisation est accomplie manuellement par des experts linguistiques. Ces groupes prennent en compte un certain nombre de bruit n’appartenant pas au langage à proprement parlé. De cette description phonémique, il n’est retenu que les trois catégories consonnes, voyelles et silences. Eventuellement une classe supplémentaire sera considérée pour tous les bruits non verbaux. Chaque langue comporte un ensemble de locuteurs (cf. Tableau 3.5), qui expriment une courte histoire (notée story_bt.wav) dans leur propre langue par l’intermédiaire du téléphone. Ce texte peut varier de quelques secondes jusqu’à 45 secondes.

Tableau 3.5 Nombre de passages par langue pour le corpus OGI-MLTS
Notes
85.

Multi Language Telephone Speech.