1.2. La production des sons de parole : Quelques généralités

1.2.1.La théorie source-filtre

L’une des principales origines de la variabilité, nous l’avons déjà mentionné est la réalisation à l’infini des sons de parole. La production des sons de parole peut être modélisée selon la théorie source-filtre. Cette théorie consiste à mettre à dire que la source des sons de la parole provient du souffle pulmonaire qui fait entrer en vibrations les cordes vocales (CV) et le filtre est représenté par les cavités supra-glottiques qui jouent un rôle d’amplificateur de certaines fréquences.

La théorie source-filtre permet donc de décrire les mécanismes et les propriétés de production des sons. La source correspond donc à la vibration des CV qui varie en fonction des individus et le filtre représente la façon dont la source sera modifiée par la forme des différentes cavités du tractus vocal c’est-à-dire la façon dont l’onde sonore va entrer en résonance. L’air va passer dans le tractus vocal qui va avoir un rôle important de résonateur. Le tractus vocal qui se situe au dessus du larynx peut subir des variations de forme par les mouvements de la langue, des lèvres et des mâchoires. On dénombre 4 cavités vocales : la cavité buccale, la cavité pharyngale, la cavité nasale et la cavité labiale. Chacune de ces 4 cavités correspond à des résonateurs distincts qui vont avoir un rôle d’amplificateur de l’onde sonore qui les traverse. Lorsque l’on modifie le nombre, la forme et le volume d’un résonateur, on modifie le son produit.

Les cavités supra-glottiques possèdent leur propre fréquence de résonance ce qui va modifier le son, on dit que le son est filtré. Le tractus vocal se comporte comme un filtre complexe qui conduit à un phénomène de résonance à certaines fréquences. Certaines fréquences vont être amplifiées alors que l’amplitude diminue pour toutes les autres fréquences. Les cavités correspondent donc chaque à un filtre qui possède leur propre fréquence de résonance. Le phénomène de résonance est à l’origine de l’apparition des formants qui constituent les voyelles. Les voyelles sont des sons périodiques pour lesquels l’air passe librement, il n’y a pas d'obstacle et pas de constriction. De plus, toutes les voyelles sont voisées du fait de la vibration des cordes vocales. Le signal physique d’une voyelle est caractérisé par des bandes de fréquences qui sont renforcées (la résonance), appelées des formants. Les formants correspondent à une concentration importante d’énergie à une fréquence particulière. Les formants permettent de discriminer les voyelles qui ont la même fréquence fondamentale, la même amplitude et la même durée. La connaissance des principales caractéristiques acoustiques c’est-à-dire la fréquence et l’amplitude des deux (ou trois) premiers formants permettent d’identifier les voyelles orales. Strange (1989) fait une description des caractéristiques acoustiques des voyelles. Au niveau perceptif, seuls les deux (ou trois) premiers formants constituent l’information de base pour reconnaître une voyelle. Les deux dimensions articulatoires des voyelles : l’aperture et le lieu d’articulation se superposent à deux dimensions acoustiques (F1 et F2). Les deux premiers formants sont reliés à deux traits distinctifs des voyelles. Ces deux premiers formants correspondent aux indices les plus importants pour identifier la parole, au niveau des voyelles et de certaines consonnes (comme les occlusives). Le premier formant (F1) est lié à l’aperture des voyelles, par exemple, [i] est une voyelle fermée (valeur de F1 basse) (Figure 3). Le second formant (F2) correspond au lieu d’articulation de la voyelle, par exemple, [i] est une voyelle antérieure (valeur de F2 élevée).

Figure 3 : Correspondance entre les dimensions articulatoires (l’aperture et le lieu d’articulation) et acoustiques (F1 et F2) des voyelles en français.

Lehiste et Peterson (1961) décrivent trois phases à la structure formantique des voyelles : la partie stable et les transitions formantiques initiale et finale. Dans une structure CVC, la transition initiale correspond au relâchement de la consonne au début de la syllabe et la transition finale correspond à la fermeture consonantique à la fin de la syllabe. Les transitions formantiques sont des segments acoustiques importants pour l’identification des sons de parole. Nous nous intéresserons particulièrement à la transition du F2, dans une structure CV, qui correspond à un indice de lieu d’articulation de la consonne. La trajectoire de cette transition varie selon le lieu d’articulation de la consonne et de la voyelle suivante (Figure 4). La dynamique temporelle des changements fréquentiels rapides (la pente) est un évènement critique dans la perception de la parole (voir section ).

Figure 4 : Direction des transitions de F1 et F2 synthétisées pour différentes voyelles montrant les lieux d’articulation correspondant (Emprunté à Delattre, Liberman, & Cooper, 1955).

Les sons de parole varient en fonction de la disposition des organes dans le tractus vocal. Les sons sont caractérisé par trois dimensions articulatoires : (1) les organes actifs et la région où ils sont actifs, (2) le passage de l’air dans les cavités supra-glottiques et (3) la vibration ou non des CV. Les deux premiers points permettent de donner aux sons un mode et un lieu d’articulation alors que le dernier point permet de distinguer les sons voisés (sonores) des sons non voisés (sourds).

L’air arrive au niveau du larynx où se situent les cordes vocales. Les cordes vocales sont des replis musculaires situés au niveau de la glotte. La glotte est l’espace par lequel l’air s’échappe entre les cordes vocales. La glotte n’est donc pas un organe. La vitesse à laquelle s’ouvrent et se ferment les cordes vocales correspond à la fréquence fondamentale du signal (F0). Les valeurs de F0 sont différentes chez l’homme (150 Hz) et la femme (250 Hz), ainsi que chez l’enfant (350 Hz).

La sonorité ou le voisement se manifeste par la vibration périodique des cordes vocales. Les cordes vocales peuvent prendre différentes positions pour produire les sons de parole. Elles peuvent être plus ou moins resserrées : lorsqu’elles sont accolées, elles peuvent entrer en vibration et provoquer le phénomène de voisement. Le son qui est produit lorsque les cordes vocales vibrent est un son voisé ou sonore (p. ex. /a/, /v/ ou /b/). Les cordes vocales peuvent être ouvertes ce qui laisse un écoulement libre de l’air sans vibration des cordes vocales. Le son produit est alors un son non voisé ou sourd (p. ex. /f/ ou /p/). Enfin, les cordes vocales peuvent être mi-ouvertes ce qui permet un écoulement de l’air avec du bruit. Cette position des cordes vocales correspond à la parole chuchotée. Les consonnes peuvent être non voisées (sourdes : [p t k f s ʃ]) ou voisées (sonores : [b d g m n ɲ ŋ v z ʒ l ʁ wj ɥ]). Dans cette thèse, nous nous intéresserons essentiellement aux occlusives orales voisées [b d] et non voisées [p t].

D’après Ladefoged (2001) nous pouvons résumer brièvement la description des mouvements articulatoires de la manière suivante. Il existe trois grandes catégories de sons dans les langues : les consonnes, les voyelles et les semi-voyelles ou semi-consonnes. Les consonnes se caractérisent par la formation d’un obstacle sur le passage du flux d’air dans les cavités supraglottiques alors que les voyelles sont des sons pour lesquels les articulateurs n’y font pas obstacle. Sur une échelle de constriction, nous pouvons distinguer trois niveaux : l’occlusion (entrave maximale) correspondant aux consonnes occlusives, la constriction étroite correspondant aux consonnes fricatives et la constriction ouverte donnant les approximantes et les voyelles. En ce qui concerne les semi-voyelles ou semi-consonnes, ces sons sont intermédiaires entre les consonnes et les voyelles. Du point de vue articulatoire, elles ressemblent à des voyelles mais du point de vue phonologique, elles se comportent comme des consonnes. Les voyelles et les consonnes fricatives sont fréquemment décrites comme des évènements statiques alors que les occlusives sont décrites par leurs aspects dynamiques. Les consonnes sont caractérisées par l’évolution d’un spectre dans le temps excepté les fricatives qui se rapprochent des voyelles, par une stabilité spectrale.

Nous détaillerons, particulièrement, les consonnes occlusives orales [b d p t] qui composeront nos pseudo-mots dans les expériences du Chapitre 2.