4.5.1. La modélisation des systèmes vocaliques

4.5.1.1. La paramétrisation des voyelles

Dans les applications de reconnaissance automatique de la parole, la technique la plus utilisée consiste en une représentation cepstrale de la parole. Celle-ci permet, en effet, de procéder à une déconvolution particulièrement efficace entre la source du signal et le conduit vocal71.

Par ailleurs, le choix d’une échelle non-linéaire (généralement celle de Mel) permet d’obtenir, pour chaque segment détecté, une représentation rigoureuse dans un espace d’une dizaine de dimensions (ici, huit). En appliquant ces différents traitements aux trames centrales (i.e. parties stables) des segments vocaliques détectés pour chaque locuteur et dans chaque langue et/ou dialecte, on dispose, pour chaque systèmevocalique, d’un ensemble de données décrites chacune par un vecteur de huit coefficients cepstraux (i.e. MFCC72) auxquels on adjoint la durée du segment détecté. Dans le cas des voyelles orales qui nous concernent plus particulièrement, cette information correspond généralement à la durée de la partie stable, elle est ainsi fortement corrélée à la durée du phonème (i.e. segment vocalique bref vs long). Les différences de durée vocalique constatées dans l’une et l’autre des deux zones dialectales concernées peuvent donc se révéler pertinentes pour la modélisation des systèmes vocaliques.

Notes
71.

Traditionnellement dans la théorie « source-filtre », le son produit résulte de la transformation (ou convolution) d’un signal excitateur (source glottique) par le conduit qu’il traverse (conduit oral et/ou nasal). En TAP et de manière à s’affranchir des caractéristiques de la source (propres au locuteur), on effectue l’opération inverse, appelée déconvolution. Pour cela, on réalise une suite de traitements (analyse spectrale, puis passage au logarithmes) aboutissant à la conservation de la contribution de la forme du conduit vocal dans un espace dit cesptral : il s’agit du cepstre.

72.

Mel Frequency Cepstral Coefficient.