2.2.2 de l’histoire de l’IAL

Le rêve des hommes, celui de se construire des doubles sans âme, mais réalisant les tâches les plus humaines, remonte à de nombreux siècles, comme le témoignent les différents types d’automates décrits dans les documents anciens (Pelton, 1993). L’IAL est l’un des plus jeunes «membres» de la famille des technologies vocales, né dans les années 70, grâce aux premières recherches entreprises notamment par le groupe Texas Instruments (Léonard, 1980 cité par Muthusamy, 1993). Ces premières approches reposent sur une méthodologie déjà acquise en la Reconnaissance Automatique de la Parole (désormais RAP).

La première réalisation dans le domaine de la RAP remonte aux années 20 (Gold & Nelson, 1999). Il s’agit d’un mini système de reconnaissance placé dans le corps d’un chien jouet, Radio Rex, qui lui permettait de réagir à son prénom ou plutôt à la voyelle du prénom. Le système stockait une représentation des caractéristiques de la voyelle en question et était capable de comparer une entrée vocale comportant un segment vocalique similaire et d’en reconnaître la ressemblance. Cependant, le premier véritable système construit dans le but de la RAP date des années 50 (Dudley, 1950). La naissance de ce système est liée à l’apparition de l’électronique analogique dans les années 40, puis numérique (fin des années 50). L’approche utilisée dans le système de Dudley est basée sur une méthode de classification de spectres. C’est à la suite de ces travaux que la RAP devient un défi à la fois scientifique, militaire et commercial et que, par conséquent, elle fait l’objet de supports financiers et d’évaluations régulières. Dix ans plus tard, les travaux initiaux utilisant des méthodes probabilistes (Martin, 1964), sont complétés par une première approche basée sur un réseau de neurones. Le premier système utilisant des modèles de Markov cachés (HMM – «Hidden Markov Models») date des années 60 et appartient à Baum & Petrie (1966). IBM est un des premiers groupes à utiliser la méthode. Environ à la même époque les techniques spectrales les plus utilisées dans la RAP sont mises au point. Il s’agit de la FFT (’Fast Fourier Transforms’), de l’analyse cepstrale et de la LPC (’Linear Predictive Coding’).

En 1971, la RAP devient sujette à une première évaluation systématique à échelle nationale (aux Etats Unis), grâce au projet de l’ARPA (’Advanced Research Projects Agency’) géré par le NIST (’National Institute of Standards and Technology’). Cette évaluation réunit six laboratoires informatiques autour d’un même objectif, celui de mettre au point un système qui reconnaisse les mille mots d’un corpus en parole continue (en anglais). Il s’agit des groupes de recherche suivant : SDC (System Development Corporation), CMU (Carnegie Mellon University), BBN (Bolt, Beranek et Newman), Lincoln, SRI International et UC Berkeley. Hélas, l’histoire enregistre une seule réussite (celle d’un doctorant de CMU)...

Les années 80 n’enregistrent pas de changement majeur dans les approches, mais sont témoins des premiers efforts dans le sens de la mise au point de corpus de parole larges et standardisés. L’objectif de cette démarche était de pouvoir utiliser les mêmes échantillons de parole, extraits des corpus communs afin de pouvoir comparer les performances des différents systèmes automatiques. Le NIST est également à l’origine de la première compilation d’un corpus standardisé. Il s’agit de TIMIT qui a été réalisé par Texas Instruments et le MIT. TIMIT est constitué par un corpus en anglais, étiqueté manuellement. D’autres corpus lui ont succédé. Ces derniers ont été mis au point au milieu des années 80 lors de la seconde étape du projet ARPA qui a été appelée «Ressource Management». Il s’agit principalement de tâches qui font appel à deux types de corpus, le premier intitulé ’Wall Street Journal Task’ et le second, ATIS. ’Wall Street Journal Task’ représente un corpus de lecture de journaux, alors qu’ATIS concerne des requêtes obtenues dans les services de réservation aérienne.

Actuellement ARPA est devenu DARPA (Defence Advanced Research Project Agency) et les évaluations annuelles continuent, en englobant plusieurs laboratoires du monde entier. La tâche porte sur des journaux télévisés (’Broadcast News’) et est considérée comme des plus réalistes, dans la mesure où elle concerne plusieurs locuteurs, plusieurs langues (tandis que les premiers corpus étaient uniquement en anglais), et plusieurs styles de parole. Ces corpus sont gérés par le LDC (’Linguistic Data Consortium’). Les évaluations de la DARPA ne se résument plus au stricte domaine de la RAP mais concernent également la reconnaissance du locuteur et l’identification de la langue ou du dialecte. Pour ces derniers domaines, des corpus standardisés permettant la comparaison ont été également mis au point.

La naissance de l’IAL, en tant que domaine de recherche à part entière, est le résultat d’un besoin de prise en compte d’un cadre multilingue dans de nombreux contextes de la société contemporaine, qu’il s’agisse de services dans un environnement commercial ou hospitalier, de l’enseignement de langues étrangères, ou encore des exigences militaires de défense ou de communication. Les recherches poursuivies avec une intensité relative au cours des années 70 et 80 ont connu un véritable essor dans les années 90 (Pellegrino, 1998). Reconnue comme enjeu important, l’IAL est actuellement soumise à des évaluations régulières du NIST¹⁸.

Quant aux principales approches actuellement utilisées dans l’IAL, ce sont tout d’abord des méthodes ayant fait leur preuve dans un premier temps en RAP. Ainsi, si le travail de Dudley (1958), considéré comme la première étude digne d’être mentionnée en RAP (Gold & Nelson, 1999), reposait sur une méthode de classification qui évaluait de façon continue les spectres, le véritable envol dans le domaine de la RAP, aussi bien que dans celui de l’IAL, s’est produit lors de la découverte du gain de qualité apporté par la modélisation markovienne. Gold & Nelson (1999) mentionnent le travail de Baum & Petrie (1966) en tant que première approche markovienne notable. Cependant, la technique a été mise au point presque vingt ans plus tôt par Shannon (1948). C’est à la même époque qu’une modélisation par réseaux de neurones est utilisée (Martin, 1964), mais il faudra attendre les années 80 pour que cette voie soit réellement exploitée (Makino, 1983).

Durant les deux premières décennies de la vie des systèmes automatiques, les approches statistiques resteront fondamentales (Gold & Nelson, 1999 ; Pellegrino, 1998). Enfin, des approches issues des recherches en intelligence artificielle, sont également à considérer. Les premiers travaux basés sur la codification de la connaissance humaine sont notés dès lors de la première évaluation ARPA et par la suite, dans les années 80, elles sont sujettes à un intérêt grandissant. La spécificité des approches reposant sur les recherches en intelligence artificielle se trouve dans les règles qui sont à la base de certains de ces systèmes.

L’IAL profite pleinement de ces acquis antérieurs. Les premières approches sont également statistiques et basées sur une modélisation acoustique ou phonotactique. Dans les années 80, des données supplémentaires sont prises en compte afin d’augmenter la robustesse des indices discriminants. Les principaux paramètres rajoutés sont spectraux et prosodiques (Pellegrino, 1998).

Notes

18.

http://itl.nist.gov/iaui