2.2.3 des dernières réalisations de l’ial

2.2.3.1 Les années 90

Il a été maintes fois souligné que le TAP représente l’un des domaines les plus novateurs du monde technico-scientifique contemporain. Si son statut de ’domaine de laboratoire’ lui a valu à ses débuts une renommée restreinte aux seuls initiés du monde scientifique, l’IAL devient véritablement accessible dans les années 90. C’est à ce moment-là que les premiers systèmes en RAP deviennent largement utilisables et commercialisés. La nécessité d’un traitement multilingue propulse l’IAL sur le devant de la scène technologique. Simultanément, les chercheurs du domaine commencent à s’intéresser à un domaine moins exploité, celui de la reconnaissance du locuteur. Par conséquent, l’IAL commence à se matérialiser dans de nombreuses applications destinées à l’usage de tout possesseur d’ordinateur.

Actuellement, le monde des services est inévitablement associé aux techniques de reconnaissance vocale et de langue. Pour ne citer qu’un seul et illustratif exemple, le bien connu service des urgences américain ’911’ a fait appel à la compagnie AT&T pour doter ce service d’une équipe d’interprètes humains qui doivent aguiller les personnes qui appellent vers l’un des natifs des 140 langues prises en compte. Cependant le délai nécessaire à un humain pour prendre une décision concernant la langue parlée par son interlocuteur reste trop long. Cette démarche prouve qu’un besoin réel existe de systèmes destinées à gérer ce type d’environnement multilingue (Muthusamy, 1994). Les systèmes d’IAL sont ainsi devenus une nécessité dans notre société dans les circonstances où la mixité linguistique est inévitable (les hôtels, les aéroports, ...).

L’IAL fait l’objet non seulement d’évaluations régulières de ses performances, mais également d’études sur l’évolution des approches, des méthodes et des corpus utilisés. Nous nous rapportons ici aux évaluations de Muthusamy (1994) qui traitent exhaustivement des années 80, et à celle de Pellegrino (1998) qui couvre la dernière décade jusqu’en 1997. Finalement nous discuterons le bilan de Zissman & Berkling (2000), qui représente le dernier en la matière.

Muthusamy (1994) est l’auteur d’une synthèse concernant à la fois les techniques de construction de corpus mises au point jusqu’à présent, le nombre des langues prises en considération lors des tests, les approches et les méthodes employées dans la réalisation des systèmes automatiques. Il présente un panorama complet de données sonores allant de la parole de laboratoire jusqu’aux journaux télévisés. Le nombre de langues utilisées varie de 3 à 30, tandis que les approches, au nombre de huit, reposent sur la modélisation des ’références sonores’ de chacune des langues, les vecteurs formantiques, les modèles de Markov appliqués au niveau segmental et/ou supra-segmental, les traits acoustiques, les contours prosodiques et les traits du signal de parole brut («just raw waveform features»).

Quant aux méthodes de traitement, l’auteur cite les plus productives, dont les incontournables modèles de Markov cachés, les systèmes experts, les classifieurs quadratiques et les réseaux de neurones. Le bilan de la performance de ces systèmes est moins accessible, d’après Muthusamy (1994), en raison du caractère souvent secret des démarches et, jusqu’à une certaine époque, de l’hétérogénéité des corpus qui rendait la comparaison impossible.

Le bilan de Pellegrino (1998) prend tout d’abord en compte les corpus standardisés actuellement disponibles. Par la suite, l’auteur dresse le portrait des principaux systèmes.

Tableau 11 : Principaux corpus multilingues disponibles (Pellegrino, 1998).
Nom de corpus Nombre de langues Conditions d’enreg. Type de parole Transcriptions
CALLFRIEND 12(15) Téléphone Conversation -
CALLHOME 6 Téléphone Conversation Orthographique - partielle
EUROM_1 11 Studio Lue Phonétique – totalité
GlobalPhone 9 Studio Lue Orthographique-totalité
IDEAL 4 Téléphone Mixte(spontanée/lue) -
OGI 22 languages 22 Téléphone Principalement spontanée -
OGI MLTS 11 Téléphone Principalement spontanée Phonétique - partielle

Les quelques dix laboratoires impliqués gravitent autour de deux approches principales. Tout d’abord, il s’agit de la modélisation statistique basée sur la ressemblance de langues d’entrée/modèles existants et reposant presque exclusivement sur des informations phonotactiques (Rensselaer Polytechnic Institute, New York, Etats-Unis ; LIMSI, France ; Ensigma Ltd, Angleterre ; l’Université d’Aalborg, Danemark ; BBN Systems and Technologies, Etats-Unis ; l’Université de Tokyo, Japon ; MIT, Etats-Unis ; OGI, Etats Unis ; Technical University of Ilmenau, Allemagne).

Ensuite, la seconde approche est représentée par la modélisation neuronale ou neuro-mimétique qui s’appuie sur la notion de règle (OGI, Etats-Unis). La plupart des systèmes s’articulent autour de deux modules. Le premier, décodeur acoustico-phonétique, traite l’entrée sonore afin de fournir en sortie une série d’unités discrètes et le second, grammaire statistique, modélise les contraintes phonotactiques de la langue (Pellegrino 1998). Les différences entre ces systèmes statistiques concernent plutôt le type de traitement effectué par le décodeur, qui peut être un décodeur commun à toutes les langues (Lund, 1995 ; Hazen, 1997 ; Navratil, 1997 ; Berkling, 1995, entre autres), un décodeur multiple multiple – chacun des systèmes traitant d’une seule langue, sans que cette dernière corresponde nécessairement aux langues à identifier (Yan, 1996 ; Zissman, 1996) et enfin, un décodeur intermédiaire, auquel cas le nombre de décodeurs est inférieur au nombre de langues.

Si les deux évaluations ci-dessus ont un caractère plutôt global, s’intéressant à la fois au pré-traitement linguistique et à l’algorithme de reconnaissance, Zissman & Berkling (2000) articulent leur évaluation principalement autour de l’évolution de la modélisation linguistique. Ce choix leur permet de souligner l’importance du niveau linguistique grâce à l’évaluation de l’état actuel des performances dont l’amélioration dépend surtout d’une meilleure prise en compte de la complexité langagière.

Six approches principales sont identifiées et décrites par les deux auteurs. La première repose sur un traitement linguistique basé sur la similarité spectrale. Elle consiste en l’exploitation des différences entre les contenus spectraux des différentes langues considérées et en une prise de décision par rapport à une base de données assimilées lors d’une phase d’apprentissage. Les performances limitées de cette première approche induisent l’idée que la connaissance linguistique caractéristique de ces systèmes est limitée. La seconde approche prend en compte l’information prosodique, en tant que donnée supplémentaire et surtout la combinaison de cette dernière avec l’information purement segmentale. Cette combinaison permet d’enregistrer des améliorations des performances des systèmes et une robustesse plus importante face au bruit.

Cette étape est suivie par une démarche plus complexe, appelée par les auteurs ’une approche basée sur la reconnaissance de phones’, et fondée sur l’hypothèse selon laquelle une modélisation temporelle des séquences de phones de chacune des langues traitées rendrait compte des différences entre les langues, aussi bien en termes d’inventaire phonique qu’en termes de contraintes phonotactiques spécifiques. Cette approche, dépendante de la langue, est améliorée par une quatrième, basée sur l’utilisation d’unités de parole multilingues. Il s’agit de mélanger les phones dépendants et indépendants de la langue, voire de dériver automatiquement de nouveaux items suite à l’entraînement. Cela aboutirait à la constitution de deux grandes classes de phones, celles de type ’phones clé’ (discriminants d’une langue) et celles de type ’poly-phones’ (appartenant à toutes les langues). L’avantage principal de cette méthode est que toute nouvelle langue peut être facilement incorporée. Enfin, la cinquième approche serait plus poussée du point de vue du traitement linguistique, car elle est basée sur la modélisation lexicale. La sixième approche représente l’approche la plus utilisée actuellement. Cette approche concerne la reconnaissance linguistique continue et repose sur une meilleure connaissance linguistique tout en s’appuyant sur des vocabulaires de plus en plus larges. D’ailleurs une voie possible pour l’avenir de l’IAL est cette dernière, d’augmenter et améliorer les connaissances linguistiques afin de mieux rendre compte de la complexité du langage humain.