2.3 L’identification des langues par les Hommes

2.3.1 les approches expÉrimentales et les Évaluations

Les méthodes expérimentales en identification perceptive de langues développées durant les deux dernières décades fournissent un élément de comparaison pour les performances des systèmes automatiques, mais elles représentent également un moyen de mettre en évidence d’éventuelles sources d’amélioration des systèmes en question. L’idée maîtresse de l’approche est que l’être humain demeure l’un des ’systèmes’ de reconnaissance les plus performants en termes de nombre de langues, d’apprentissage et de réussite lors d’un test de discrimination.

Nous sommes capables de détecter l’information la plus saillante dans le signal, selon la définition de Hombert & Maddieson (1998), à savoir les segments qui sont non seulement les plus identifiables du point de vue acoustique, mais aussi les plus discriminatoires des langues, cela étant possible dès quelques jours de vie. Nous pouvons repérer des indices discriminants à la fois au niveau segmental et au niveau supra-segmental. Ainsi, des études récentes menées sur des nourrissons ont montré qu’ils peuvent différencier les langues grâce à leur prosodie (Ramus, 1999). Ramus a testé une population de nouveau-nés âgés de quelques heures à quelques jours et a utilisé comme stimuli des échantillons de parole où seules des informations de nature supra-segmentale sont préservées. Les résultats montrent que les bébés sont capables de discriminer les langues, grâce à leurs caractéristiques prosodiques.

D’ailleurs, qu’il s’agisse de la RAP ou de l’IAL, l’étude de la perception humaine dans une perspective de reconnaissance linguistique fait l’objet de bilans réguliers lors de l’évaluation des performances des systèmes de reconnaissance. Ces bilans fournissent, par exemple, des clés pour constater des innovations dans le domaine et ils proposent des termes de comparaison fiables pour des auteurs comme Muthusamy, Barnard & Cole (1994). Ces auteurs ont dressé une évaluation des approches automatiques, et en ont comparé les performances avec celles des auditeurs naïfs testés à l’aide des mêmes corpus linguistiques. Les scores d’identification correcte obtenus par les sujets lors d’une tâche expérimentale portant sur 10 langues se situent entre 39% et 100% et la moyenne de la réussite est de 69,4%. Ces résultats sont obtenus pour des échantillons en parole naturelle d’une durée de 6 secondes. De plus, les sujets ont fourni quelques critères qui les ont aidé à identifier les langues. Ainsi, l’allemand a été identifié grâce au mot ’ich’ (je), la fréquence de la succession de sons ’eh-s’ a permis l’identification de l’espagnol, le mot ’imnida’ a été reconnu en coréen et, finalement, le mot ’mashita’ a aidé les sujets a reconnaître le japonais. La conclusion des auteurs par rapport à ces résultats est que l’utilisation des indices que les sujets humains sont capables de mettre en oeuvre afin de discriminer des langues inconnues pourraient fournir de nouvelles pistes pour l’amélioration des performances des systèmes automatiques.

Pols (1997) arrive à la même conclusion lorsqu’il évalue les réactions des sujets humains face aux difficultés de reconnaissance dues à la dégradation progressive de la qualité des signaux d’entrée. Il s’avère que la capacité de reconnaissance d’un être humain est préservée malgré toute perturbation ou distorsion du signal, qu’il s’agisse du bruit et de la réverbération ou de la distorsion spectrale ou temporelle. L’être humain a ainsi la capacité de restaurer l’information acoustique manquante, d’utiliser le niveau supra-segmental pour la reconnaissance, de faire face à la coarticulation, etc. Ces études qui ont mis en évidence les capacités perceptives de l’Homme fournissent des pistes à suivre pour l’amélioration de la reconnaissance automatique. La compréhension des aspects perceptifs constitue un requis indispensable pour les développeurs de systèmes de reconnaissance automatique et elle est importante, car il s’agirait d’une source potentielle de progrès. C’est du moins la conclusion de ce même auteur (Pols, 1999) lors de cette étude ultérieure. Il semble évident pour Pols qu’une meilleure exploitation des indices utilisés par les humains lors des mêmes tâches de reconnaissance de la parole que celles utilisées pour l’évaluation des systèmes automatiques, soit une source d’amélioration de ces derniers.

D’un autre côté, Lippmann (1997) dresse un bilan des travaux qui comparent les performances des systèmes de reconnaissance de parole modernes avec celles des locuteurs humains. Ces observations amènent l’auteur à estimer que les améliorations des systèmes automatiques devraient être apportées par la modélisation acoustico-phonétique adéquate de bas-niveau, par l’amélioration de la robustesse face au bruit et à la variabilité des conditions de transmission, ainsi que par la modélisation plus précise de la parole spontanée. Dans ces trois domaines l’être humain a développé des stratégies sophistiquées pour extraire, d’un côté, les informations les plus saillantes pour la reconnaissance, et de l’autre, pour contrebalancer les données manquantes dans des conditions de transmission sonore variables.

En guise de conclusion partielle, nous pouvons encore une fois affirmer que l’être humain représente, métaphoriquement parlant, l’un des ’systèmes’ de reconnaissance les plus complexes et de loin le plus performant à l’heure actuelle. Les indices que l’homme utilise dans la discrimination des langues concernent plusieurs niveaux linguistiques (segmental, supra-segmental, phonotactique,...) et l’étude de ces indices pourrait fournir, par la suite, autant d’informations susceptibles d’être utilisées dans les systèmes automatiques. Par ailleurs, les stratégies discriminantes employées lors de l’identification linguistique sont résistantes aux conditions d’écoute défavorables (i.e., bruit).

Dans les paragraphes qui suivent nous ferons un bilan des types d’expériences perceptives réalisées à ce jour avec des sujets humains en vue de la discrimination des langues, en insistant sur la nature et l’importance des indices mis en évidence par ces méthodes.

Nous décrirons d’abord les principaux enjeux de la démarche et ensuite, nous nous attacherons plus particulièrement aux études que nous considérons comme les plus pertinentes pour notre objectif. Nous commencerons d’abord par des approches à caractère général dans la mesure où elles utilisent comme échantillons de test des extraits en parole naturelle non-modifiée. Nous présenterons ensuite les travaux qui s’intéressent au rôle plus précis de certains événements présents dans le signal qui sont exploités par les auditeurs pour la discrimination linguistique.