4.3.1. Segmentation du signal et localisation des segments vocaliques

La plupart des méthodes de segmentation de la parole en unités phonétiques utilisent une fonction qui mesure les discontinuités locales du signal ou de son spectre au cours du temps. La structure quasi-périodique de certaines partie de signal indique la présence d’unités voisées. De même, la présence d’un intervalle de silence suivi d’une variation brusque du signal permet de déceler un son plosif. Un signal périodique avec de nombreux passages par zéro et des valeurs d’énergie dans les hautes fréquences élevées peuvent caractériser la classe des fricatives. Enfin, les fréquences des formants, reliées directement aux résonances du conduit vocal, peuvent caractériser les voyelles.

Le système de Pellegrino est fondé sur la recherche d’événements propres aux voyelles à partir d’une analyse spectrale. Typiquement, la méthode a consisté à rechercher une fonction spectrale du signal et à établir des critères de localisation des segments vocaliques. La principale difficulté de ce type d’approche réside dans l’obtention d’un algorithme robuste aux changements de langues, de locuteurs et/ou de conditions d’enregistrement. De manière schématique, la détection des voyelles dans le signal global s’effectue par le biais de différentes étapes résumées dans la figure 73.

message URL fig73.gif
Figure 73 : Schéma synoptique du système de détection des segments vocaliques (D’après Pellegrino, 1998:112).

La segmentation du signal de parole vise à extraire du continuum acoustique des unités sur lesquelles portera la décision d’identification. Comme nous l’avons vu plus haut, le problème est, à ce niveau, double. Il s’agit en effet d’une part, de choisir une unité de décision (ici, les voyelles) et d’autre part, d’opérer une segmentation correcte.

De brusques changements dans le spectre acoustique sont souvent le signe de frontières de segments. Néanmoins, ces frontières ne sont pas des indices fiables à cause des phénomènes de co-articulation qui conduisent fréquemment à des variations importantes entre unités phonologiques de même nature. De ce fait, l’une des difficultés majeures en traitement automatique de la parole réside dans la détermination des frontières des différentes unités phonétiques contenues dans le signal de parole continue, et dans lequel les unités — très fortement coarticulées — sont difficilement segmentables. Néanmoins, ce processus est indispensable puisque la plupart des systèmes d’IAL fonctionnent sur la base d’unités discrètes.

Dans l’approche de Pellegrino, ce problème est résolu par l’application d’un algorithme de divergence forward-backward (André-Obrecht, 1988 et 1993) qui permet de localiser — à l’intérieur du signal de parole continue — des unités discrètes primordiales pour l’élaboration d’un décodeur acoustico-phonétique. L’application de cet algorithme conduit à la segmentation du signal en trois types d’unités discrètes :

  1. des segments courts (d’une durée inférieure à 20ms) appelés segments événementiels et qui correspondent généralement aux chevauchements des gestes articulatoires brefs (par exemple, amortissement de la structure formantique lors de la fermeture du conduit vocal ou du relâchement de l’occlusion d’une consonne plosive),

  2. des segments dits transitoires apparaissant entre deux phonèmes,

  3. des segments appelés stationnaires qui matérialisent la partie stable des sons, et en particulier, la trame centrale des voyelles.