2.2.3.2 Le présent

Le domaine de l’IAL est en constante évolution. Il est par conséquent difficile de dresser un panorama complet des démarches actuelles. Des tendances générales et certains éléments centralisateurs (évaluations standardisées et régulières, communauté de besoins et impératifs commerciaux, etc.) sont néanmoins à mettre en évidence. Le principal catalyseur en termes de bilan périodique des performances des principaux acteurs du domaine reste la démarche annuelle du NIST19. Les thèmes de la reconnaissance de la parole et du locuteur demeurent les objectifs principaux de ces évaluations qui permettent de réunir plus d’une vingtaine de laboratoires du monde entier. Lancée en 1987, cette campagne mondiale d’évaluation des performances en TAP, vise surtout la RAP continue qui est basée sur de larges vocabulaires. Elle englobe également des évaluations de la RAP, à partir de la parole téléphonique et conversationnelle, des systèmes automatiques destinés au trafic aérien ou bien, de l’identification du locuteur et, bien évidemment, de la langue.

Actuellement, sept laboratoires sont impliqués dans les tests d’évaluation des systèmes d’IAL coordonnés par le NIST. Il s’agit des laboratoires suivants :

  1. AT&T Bell Laboratories (présent dans la liste publiée par NIST, ils ne fournissent pas de renseignements à destination publique sur leurs systèmes en IAL).

  2. Dragon Systems (de même que pour le précédent laboratoire, l’IAL représente un domaine de recherche, mais ses résultats demeurent confidentiels).

  3. Lockheed Martin (Sanders) (ce laboratoire met au point des systèmes à destination militaire dans plusieurs domaines, dont l’IAL20).

  4. Massachussets Institute of Technology – Lab for Computer Science – Spoken Language Systems (le principal produit est Multilingual GALAXY, un système destiné à l’interaction Homme/Machine dans différents domaines d’intérêt public et incorporant plusieurs modules de traitement, dont un, destiné à l’identification de l’une des quatre langues suivantes : anglais, espagnol, japonais, chinois mandarin21).

  5. MIT Lincoln Laboratory – Speech Systems Technology Group (l’identification de la langue et celle du dialecte sont mentionnées en tant que domaines de recherche majeurs, mais les produits ne sont pas accessibles22).

  6. Oregon Graduate Institute – Center for Spoken Language Understanding (des descriptions de systèmes en IAL ne sont pas fournis non plus23).

  7. Renssalaer Polytechnic Institute – Electrical Engineering Department (aucune information destinée au grand public concernant les systèmes destinés à l’IAL n’est accessible24).

Les approches actuellement utilisées apportent plutôt des améliorations aux acquis précédents. Les cinq dernières années n’ont pas été témoins d’une grande innovation dans le domaine. Ainsi, les modèles statistiques (Modèles de Markov Cachés) représentent encore aujourd’hui la méthode de modélisation acoustique la plus utilisée. Ils l’emportent de loin sur d’autres approches telles que la modélisation segmentale ou les réseaux neuronaux. De plus, les approches basées sur les réseaux de neurones se servent du cadre des modèles markoviens afin de traiter l’information linguistique et acoustique dans un seul réseau, celui du langage de l’application (Gauvain, 2000).

Si évolution il y a, elle se trouve plutôt au niveau de la modélisation de la langue, c’est-à-dire dans le choix des unités de traitement et des niveaux linguistiques pris en compte, ainsi que dans les types de corpus de données recueillis à cette fin.

Du point de vue acoustique, les systèmes actuels sont plutôt basés sur des phones en contexte (tri/penta-phones), considérés comme plus appropriés que les diphones, largement utilisés jusqu’à récemment, car plus complexes en raison du spectre de dépendances contextuelles qu’ils offrent. La modélisation de la langue tient compte en plus des niveaux super-ordonnés aux niveaux généralement exploités dans la réalisation des systèmes automatiques, c’est-à-dire les niveaux segmental et supra-segmental et l’on parle alors d’une modélisation lexicale. Cette modélisation lexicale consiste en la prise en compte de plusieurs variantes de prononciation d’un item lexical donné (Lamel & Adda, 1996 ; Lamel, Adda & Adda-Decker, 1996 ; Adda-Decker & Lamel, 2000, etc.).

La modélisation lexicale peut être accompagnée d’une modélisation syntaxique et sémantique qui prend en compte les régularités du langage naturel et qui fait appel à des modèles n-grammes (Gauvain, 2000). Plus récemment, on a ajouté à la modélisation acoustique classique, une modélisation phonologique (Aditti, 1999) qui s’appuie sur les contraintes phonologiques de la langue, ou même, acoustique, aérodynamique et articulatoire simultanément (Petit & Soquet, 2000).

Enfin, une autre voie pour l’amélioration des systèmes en cours pourrait être trouvée dans les interfaces multimodales (Oviatt, 2000). Elle consiste en la combinaison d’une reconnaissance linguistique avec une analyse non-linguistique complémentaire qui a le rôle de désambiguïsation, comme, par exemple la lecture labiale. Cette complémentarité rendrait les systèmes plus robustes dans des conditions défavorables, bruitées. Là encore le modèle est inspiré par le système perceptif humain qui s’avère plus performant grâce à ses capacités de ’démodulation’ (Transmüller, 1994 et 2000) de l’entrée complexe (i.e., multimodale : visuelle et auditive) qui n’est jamais que de type parole. En effet, l’être humain émet des signaux acoustiques qui sont accompagnés d’un ensemble de données extra-linguistiques qui facilitent le décodage et augmentent la robustesse des messages transmis.

Quant aux objectifs mêmes, ils sont devenus plus exigeants puisque aujourd’hui les travaux consacrés à la RAP ou l’IAL sont accompagnés des approches concernant, par exemple, l’identification des accents étrangers des non-natifs d’une langue donnée (Teixeira, Troncoso & Serralheiro, 1999 ; Van Compernolle, 2000 ; entre autres).

Les corpus de données sont à présent soumis à des standards nationaux, voir internationaux. L’époque des corpus spécifiques, développés individuellement par les laboratoires qui se sont investis en IAL et pour des objectifs spécifiques à un projet précis, est révolue. À présent, la plupart des corpus largement employés sont des produits qui se trouvent sous la tutelle du NIST. Ces produits sont hautement spécialisés par rapport aux différentes tâches évaluatives effectuées par l’organisme cité. La dichotomie principale entre les corpus de type «parole de laboratoire» et les corpus téléphoniques persiste. De plus, une spécialisation thématique adaptée aux applications précises est également à noter. Les sept corpus recensés par Pellegrino (1998) restent toujours d’actualité, tandis que les évaluations annuelles du NIST reposent sur la base de données CALLFRIEND25, qui est un corpus de parole téléphonique comprenant, dans sa forme actuelle, 15 langues : anglais américain (dialectes du sud), anglais américain (autres dialectes), français canadien, arabe (dialecte d’Egypte), farsi, allemand, hindi, japonais, coréen, chinois mandarin (dialecte continental), chinois mandarin (dialecte du Taiwan), espagnol (dialecte des Carraïbes), espagnol (autres dialectes), tamil et vietnamien.

Notes
19.

http://www.itl.nist.gov/iaui

20.

http://www.sanders.com/business/about.htm.

21.

http://www.sls.lcs.mit.edu/sls/whatwedo/index.html,.

22.

http://ll.mit.edu/SST/.

23.

http://cslu.cse.ogi.edu.slt_cslu.html.

24.

http://www.ecse.rpi.edu/Research/mipn.html,.

25.

http://www.ldc.upenn.edu/Catalog/LID.html