II.3.3.Intégration de la prosodie dans un système d’IAL

La combinaison de la prosodie avec des systèmes d’IAL porte ses fruits principalement pour les durées inférieures à 10 secondes. Hazen et Zue (1997) proposent un modèle prosodique s’appuyant sur les parties voisées de la F0, et sur la durée des segments utilisés dans leur modèle phonotactique. Itahashi et coll. (1999) ont combiné les paramètres de F0 à des coefficients sceptraux. Les performances progressent de 96.7 % à 97.3 %. Thymé-Gobbel et Hutchins (1996) ont testé avec succès leur modèle d’IAL avec trois paires de langues contenant l’Anglais (Zissman et Martin, 1995). Cependant, cette intégration pourrait être améliorée en modifiant l’architecture classique d’un système d’IAL, de façon à laisser une place prépondérante à la prosodie (Leavers et Burley, 2001).

Effectivement, pour répondre au problème d’identification des langues, les êtres humains intègrent diverses composantes. Dans le cas d’une langue connue, ils utilisent des stratégies impliquant leurs connaissances de la langue : stratégie lexicale 82  comme l’identification de mots individuels. Face à une langue étrangère, ils font appel à des connaissances non-linguistiques : stratégie suprasegmentale (le rythme, les accents et les contours intonatifs) et stratégie segmentale (les caractéristiques phonétiques ; Leavers et Burley, 2001). Ces deux dernières stratégies peuvent servir de base à une nouvelle architecture pour l’IAL. Contrairement à la conception classique, l’identification des langues se ferait par regroupement, une classe de langues serait privilégiée avant d’identifier spécifiquement la langue utilisée.

Un exemple précis permet d’expliciter cette stratégie (Leavers et Burley, 2001). Quatre langues (Chinois, Anglais, Espagnol et Portugais) doivent être identifiées (Figure 3.3). L’aspect suprasegmental de l’intonation permet d’isoler le Chinois. Dans le cas des langues avec des tons lexicaux, la fréquence fondamentale n’est influencée que localement par la coarticulation des tons voisins. En revanche, pour les langues ne possédant pas de ton lexical, la tonalité est influencée par la phrase entière. Cette caractérisation globale est obtenue par le coefficient de Hurst 83 . Des propriétés segmentales (les voyelles) distinguent l’Espagnol du Portugais ce qui influe sur la forme 84 de la distribution de F0 ainsi que sur la durée moyenne des segments voisés.

Cet article démontre que la cognition et la linguistique peuvent s’insérer dans la réalisation d’un système d’IAL, afin d’utiliser des paramètres pour isoler différentes classes de langues. Toutefois, ce test est effectué sur seulement 4 langues. Le même travail de regroupement pour 11 langues (voire 120 langues) s’avérerait beaucoup plus fastidieux. Effectivement, il faudra sans doute tenir compte de langues ayant une classe à part comme le Basque, ou bien appartenant à plusieurs classes différentes.

Figure 3.3 Illustration de l’identification de quatre langues d’après Leavers et Burley (2001).
Figure 3.3 Illustration de l’identification de quatre langues d’après Leavers et Burley (2001).

Notre but est donc d’aborder l’identification automatique des langues à partir des composantes acoustiques, sans faire appel à des connaissances linguistiques. Chaque passage à identifier sera donc retranscrit comme des séquences temporelles. Ces séquences temporelles seront traitées par le réseau récurrent temporel décrit précédemment (chapitre 1 : section III.3). La section suivante résume les méthodes et les corpora employés dans les expérimentations.

Notes
82.

Cette dernière stratégie est la plus rapide et la plus sûre des méthodes présentées, mais aussi la plus complexe à réaliser.

83.

Ce coeffcient, noté H, est égal à 0.5 pour une série aléatoire. Pour les autres valeurs, il s’agit d’une chaîne d’éléments interdépendants. Pour le Chinois 0<=H< 0.5 (balancement entre les tons lexicaux, haut puis bas), et 0.5<H<=1 dans les autres cas (continuité, bas puis haut). En outre, ce paramètre est indépendant des locuteurs.

84.

Skewness : coefficient d’asymétrie.