III.1.1.Le corpus MULTEXT

Les expériences conduites en IAL ont été testées essentiellement sur le corpus MULTEXT. Une des tâches du projet MULTEXT (Llisterri, 1996) consistait à fournir un étiquetage prosodique de la base de données de parole multilingue EUROM1 (projet ESPRIT SAM 2589). Les passages composés de phrases thématiquement liées entre elles, issus du 'Few Speaker Set' d' EUROM1, constituent le matériel de base de notre étude, car ils proposent une cohérence linguistique et prosodique. Pour chaque langue, 10 locuteurs se répartissent la lecture de 40 passages (5 phrases par passage), ce qui correspond à une centaine de passages par langue (500 phrases).

Ce corpus contient 5 langues européennes (Anglais, Français, Allemand, Italien, Espagnol). Ce corpus a servi pour l’IAL dans l’étude de Pellegrino et coll. (2002) et la thèse de J. Farinas (2003). Les enregistrements ont été obtenus dans des conditions de laboratoire et ne contiennent donc pas de bruits parasites, tels que des rires ou des hésitations. Ce corpus contient dix locuteurs par langues, ce qui représente au final 749 passages différents. Les caractéristiques sont apprises à partir de la moitié du corpus MULTEXT (374 séquences de 5 secondes pour 5 langues, cf. Tableau 3.4). Les performances indiquées proviennent de l’autre moitié du corpus, composée de locuteurs, qui ne sont pas présents dans le corpus d’apprentissage.

Tableau 3.3 Caractéristiques du corpus MULTEXT d’après Pellegrino et coll. (2002).
Tableau 3.3 Caractéristiques du corpus MULTEXT d’après Pellegrino et coll. (2002).
Tableau 3.4 Nombre de passages par langue pour le corpus MULTEXT,
Tableau 3.4 Nombre de passages par langue pour le corpus MULTEXT, divisé en corpus d’apprentissage et de validation