2.2. Le niveau phonétique :

Ce niveau s’intéresse à la façon dont un son est produit par le système articulatoire et perçu par le système auditif.

La phonation :

La parole peut être décrite comme le résultat de l’action volontaire et coordonnée d’un certain nombre de muscles. Cette action se déroule sous le contrôle du système nerveux central qui reçoit en permanence des informations par rétroaction auditive et par les sensations kinesthésiques. La parole est donc obtenue par la modulation d’air de différentes manières, faisant intervenir plusieurs éléments corporels : de la cage thoracique aux éléments buccaux et faciaux. Tel les différents instruments composant un orchestre musical, les différents organes que sont les cordes vocales, la langue, les lèvres… peuvent être vus comme contribuant de manière conjointe et harmonieuse à l’exécution d’une partition. Toutefois, si chacun des instruments peut jouer sa partition seul, il n’en est pas de même pour les différents organes articulatoires, dont certains ne peuvent travailler qu’avec d’autres.

L’appareil phonatoire se décompose en quatre éléments, collaborant étroitement à la production de la parole : la soufflerie, le vibrateur, les résonateurs et le système articulateur.

La soufflerie consiste en un réservoir d’air : les poumons, actionnés par les muscles du thorax et de l’abdomen. Le vibrateur est constitué du larynx : ensemble de muscles et de cartilages mobiles qui entourent une cavité située à la partie supérieure de la trachée. Les cordes vocales sont placées en travers du larynx, elles peuvent le fermer complètement. L’air y passe librement pendant la respiration et la voix chuchotée, ainsi que pendant la phonation des sons non voisés (ou sourds). Les sons voisés (ou sonores) résultent au contraire d’une vibration périodique des cordes vocales. Les résonateurs sont constitués du pharynx, de la cavité buccale et de la cavité nasale dont la mise en jeu dépend de la position du voile du palais. Le système articulateur comprend la langue, les dents, les lèvres, les mâchoires et le voile du palais.La langue joue un rôle prépondérant dans le processus phonatoire : sa hauteur détermine la hauteur du pharynx, en effet plus la langue est basse plus le pharynx est court. Elle détermine aussi le lieu d’articulation, région de rétrécissement maximal du canal buccal, ainsi que l’aperture, écartement des organes au point d’articulation.

La phonétique articulatoire :

Il est intéressant de grouper les sons de parole en classes phonétiques, en fonction de leur mode articulatoire. On distingue généralement trois classes principales : les voyelles, les semi-voyelles et les liquides, et les consonnes.

Si le conduit vocal est suffisamment ouvert pour que l’air poussé par les poumons le traverse sans obstacle, il y a production d’une voyelle. Le rôle de la bouche se réduit alors à une modification du timbre vocalique. Si au contraire, le passage se rétrécit par endroit, ou même s’il se ferme temporairement, le passage forcé de l’air donne naissance à un bruit : une consonne est produite. La bouche est dans ce cas un organe de production à part entière. Les semi-voyelles [j, w], quant à elles, combinent certaines caractéristiques des voyelles et des consonnes. Enfin, les liquides [l, r] sont assez difficiles à classer.

Description des voyelles :

Comme nous venons de le voir, les voyelles se caractérisent par un libre passage de l’air à partir des cavités supra glottiques. Le « timbre » d’une voyelle dépend en partie de la résonnance ou non de la cavité nasale, de la forme ainsi que du volume du résonateur buccal et de l’arrondissement ou non des lèvres. La configuration adoptée par ces différents facteurs détermine une fonction de transfert caractéristique. Ainsi, l’allure de l’onde excitatrice (onde glottale) sera modulée par cette fonction de transfert et fera émerger des zones fréquentielles de concentration d’énergie appelées formants.

On distingue ainsi selon la localisation les voyelles antérieure, moyennes et postérieures et selon l’écartement entre l’organe et le lieu d’articulation les voyelles fermées et ouvertes. La forme de cette fonction de transfert reste constante au cours de la production de la voyelle, la rendant assimilable à un signal quasi-stationnaire.

On peut approximativement représenter les voyelles dans le plan des deux premiers formants. Les voyelles sont donc identifiables par la position de leurs formants sur le spectre. Les premiers formants (notés F1 et F2) sont les plus importants pour la caractérisation de la voyelle. Delattre et al. (1951) proposent de caractériser les voyelles selon deux axes relatifs aux valeurs F1 et F2 (Fig 6).

Figure6 : Représentation des voyelles françaises dans le plan (F1, F2).
Figure6 : Représentation des voyelles françaises dans le plan (F1, F2).

En phonétique, on peut se limiter à l’étude des deux premiers formants puisqu’ils suffisent à caractériser et à identifier les voyelles prononcées. On représente alors, dans un plan, les voyelles en fonction des valeurs de F1 et de F2. L’ensemble des voyelles d’une langue se situe en général à l’intérieur d’un triangle formé par les voyelles [a], [i], [u] qu’on appelle le triangle vocalique.

Description des consonnes :

Contrairement aux voyelles, le flux d’air provenant des poumons est partiellement ou totalement obstrué au cours de la production d’une consonne, de ce fait l’énergie est généralement moins intense que pour les voyelles. On classe principalement les consonnes en fonction de leur mode d’articulation, de leur lieu d’articulation, et de leur nasalisation. Comme pour les voyelles, d’autres critères de différenciation peuvent être nécessaires dans un contexte plus général : l’organe articulatoire, la source sonore, l’intensité, l’aspiration, la palatisation et la direction du mouvement de l’air. En français, la distinction de mode d’articulation conduit à deux classes : les fricatives (ou constrictives) et les occlusives (ou plosives). Lorsque le passage de l’air est complètement fermé, le son résulte de son ouverture subite, on parle dans ce cas de consonnes occlusives ou plosives (/p/, /t/, /k/, /b/, /d/, /g/). Inversement, lorsque le passage du flux d’air bien que rétréci reste continu, on parle de consonnes constrictives (/s/ /z/ /f/ /v/ /ch/ /j/).

Le voisement :

Il s’agit d’un paramètre articulatoire retrouvé dans la plupart des langues, représentant l’intervalle entre la libération de la consonne (appelée onset) et le début des vibrations vocales (Lisker and Abramson 1964). Le voisement est long de quelques dizaines de millisecondes et se différencie selon les différentes langues.

L’étude du VOT (« Voice Onset Time ») fait encore l’objet de nombreux travaux. En français, le VOT est dénommé : Délai d’Établissement du Voisement (DEV), qui est défini comme l'intervalle de temps entre le début des pulsations périodiques régulières glottiques et la détente de l'occlusion supra-glottique. Ainsi, si le voisement débute avant la fin de l’occlusion le VOT peut-être négatif (cas d’un /ba/), il peut être nul si la synchronisation est parfaite et positif si le voisement commence un certain temps après la fin de l’occlusion (cas d’un /pa/). Les consonnes aspirées ont un VOT plus long. En français, les occlusives voisées présentent une barre de voisement pendant la durée de l’occlusion, la valeur du voisement est donc négative. Ce voisement précède l’explosion de la consonne. Le voisement correspond aux oscillations périodiques de basse intensité qui précèdent l’explosion de la consonne (Snoeren et al, 2006). Les occlusives non voisées (/p/, /t/ /k/) montrent un VOT qui apparait avec un certain retard après l’explosion : entre 10 et 30 ms pour le français. Serniclaes (1987) rapporte des valeurs moyennes de la durée du VOT en français et en anglais (Fig 7 et 8). Par ailleurs, il a été démontré, en anglais (Niyogi & Ramesh, 2003) que le VOT était un bon indice temporel pour discriminer sur le plan acoustique les consonnes voisées et non voisées.

Les différences de voisement (vibration des cordes vocales) et d’aspiration des consonnes de différents langages peuvent être caractérisées par des modifications du VOT, qui reflète les différences temporelles entre l’activité glottique et les évènements supra laryngés. Par ailleurs, la perception du VOT serait sous le contrôle de l’hémisphère gauche (Liegeois-Chauvel et al, 1999). Toutefois, différentes études ont démontré des déficits limités dans la discrimination du VOT chez des patients présentant des lésions hémisphériques gauches, ceci suggérant soit une perception du VOT à la fois au niveau sous cortical et cortical, soit une participation de l’hémisphère droit dans la perception du VOT (Liegeois-Chauvel et al, 1999).

Figure 7 : Représentations spectrographiques (temps fréquence énergie) des sons [ba, da, ga] et [pa, ta, ka] en français.
Figure 7 : Représentations spectrographiques (temps fréquence énergie) des sons [ba, da, ga] et [pa, ta, ka] en français.

On remarque la barre de voisement pour les sons de la première colonne alors qu’il n’y en a pas pour ceux de la seconde : En langue française, le VOT, ou DET (relation temporelle entre le relâchement de la consonne et le début de la vibration des cordes vocales) des consonnes voisées (/b/, /d/, /g/) est négatif, alors que dans le cas des consonnes non voisées (/p/, /t/, /k/), celui-ci est positif.

Figure 8 : VOT en français et en anglais (valeurs de VOT en ms, provenant de Serniclaes (1987). Figure d’après la thèse de Christophe Dos Santos (2007).
Figure 8 : VOT en français et en anglais (valeurs de VOT en ms, provenant de Serniclaes (1987). Figure d’après la thèse de Christophe Dos Santos (2007).

Il existe une variation temporelle dans la perception et la production du VOT parmi les différents langages. Par exemple, en anglais, pour les consonnes voisées, le voisement coïncide à peu près avec le relâchement de la plosive. En effet une consonne anglaise voisée va avoir le début du voisement peu avant le début du phonème, alors que dans le cas d’une consonne non voisée, il existe une aspiration initiale, suivie par un court silence jusqu’au début du voisement de la voyelle suivante, cette période de silence représentant le VOT anglais (Fig 8).