4.3.1.1. La détection des segments vocaliques

L’algorithme de détection des segments vocaliques implanté dans le système de Pellegrino (1998) repose sur la localisation d’événements caractéristiques attribués aux segments vocaliques à partir de la segmentation obtenue par l’application de l’algorithme de divergence forward-backward sur le signal original.

La connaissance que nous avons du processus d’audition incite les chercheurs en parole à rechercher dans le signal le contenu fréquentiel et principalement les formants (i.e. fréquences de résonance du conduit vocal). Dans le modèle de Pellegrino, la localisation des segments vocaliques prend la forme d’une fonction spectrale issue de l’analyse fréquentielle du signal de parole. L’analyse spectrale est effectuée sur une fenêtre glissante de 32 ms avec un recouvrement de 16 ms afin d’obtenir l’analyse la plus continue possible (i.e. prenant en compte les périodes de transitions entre les différents segments présents dans la chaîne parlée).

Les valeurs de l’énergie et la répartition fréquentielle sont obtenues par l’application d’une Transformée de Fourier Rapide (TFR) et sont réparties sur l’échelle perceptive (i.e. psycho-acoustique) de Mel68 afin de se rapprocher de la résolution dont est capable l’oreille humaine. La bande passante résultante s’étend de 350 à 3500 Hz (après adjonction de différentes fonctions de pondération liées aux restrictions fréquentielles dépendantes des conditions d’acquisition des différents types de corpus, en particulier téléphonique. La mise en oeuvre des différents traitements, résumés ci-dessus et décrits plus en détails dans Pellegrino (1998:118 et suivantes), aboutit à un étiquetage segmental du signal sous forme de segments homogènes de différentes natures :

  1. pause ( = interruption du signal > à 150 ms)

  2. silence ( = interruption du signal < à 150 ms)

  3. consonne ( = absence de voyelle dans le segment)

  4. segment vocalique

La figure 74 donne un aperçu du résultat obtenu par cette technique. Elle met en évidence la localisation correcte des segments attendus, en particulier des segments vocaliques.

message URL fig74.gif
Figure 74 : Résultat de la segmentation automatique (traits verticaux) obtenue sur la phrase « la bise et le soleil se disputaient» prononcée en arabe dialectal marocain.

Le système développé par Pellegrino permettant la détection vocalique sans adaptation au traitement d’une langue inconnue, il s’est révélé pertinent de l’utiliser afin de valider la pertinence des différences de distribution et de durée vocaliques que nous avons relevées au cours de nos analyses acoustiques. Cette collaboration scientifique a eu lieu dans le cadre du projet identification multilingue69 (contrat n°95/118) initié par la Direction Générale pour l’Armement (DGA) et s’est concrétisée par une expérience d’identification automatique des parlers arabes fondée sur la modélisation de leurs systèmes vocaliques.

La méthodologie utilisée et les résultats obtenus à l’issue de ces expériences font l’objet de la partie suivante.

Notes
68.

L’échelle des sensations tonales développée par Stevens & Volkmann (1940) a été établi à partir d’unités subjectives (les mels). Partant d’un son de 1.000 Hz comme son de référence, ils ont demandé à des sujets « naïfs » (i.e. non-musiciens) de régler la hauteur d’un autre son de telle manière à ce qu’elle leur paraisse double de la hauteur du son de référence. Bien qu’au départ, cette tâche se soit avérée être relativement compliquée à mettre en place, les résultats obtenus sur l’ensemble des sujets furent assez homogènes. Par définition, un son de 1.000Hz a une hauteur de 1.000 mels, et la fréquence du son qui paraît deux fois plus haut qu’un son de 1.000 Hz, donc de 2000 mels est de 3.120 Hz.

69.

Le projet « Identification Multilingue Automatique » est basé sur la collaboration de quatre laboratoires français, réunis dans le cadre d’une convention, avec la Direction Générale pour l’Armement entre 1996 et 1998. Les quatre partenaires impliqués étaient : l’Institut de Communication Parlée de Grenoble (ICP), l’Institut de Phonétique Générale et Appliquée de Paris (ILPGA), l’Institut de Recherche en Informatique de Toulouse (IRIT) et le laboratoire Dynamique Du Langage de Lyon (DDL). L’objectif principal de ce projet résidait (1) dans la recherche de critères discriminants pour l’IAL, et (2), en la définition d’une typologie de ces indices en vue de la détermination robuste d’identifiants linguistiques (indices vocaliques et prosodiques). Dans ce cadre, les laboratoires de linguistique se sont plus particulièrement intéressés à la recherche d’indices discriminants (segmentaux et supra-segmentaux) pouvant être, d’une part, porteurs de l’identité d’une langue ; d’autre part extraits de manière robuste du signal. Les expériences d’IAL proprement dites ont été effectuées à l’IRIT à l’aide du modèle développé par Pellegrino et à partir des signaux que nous avons acquis auprès de locuteurs arabophones volontaires.