1.3.2.Le lieu d’articulation

Au moment de l’explosion de l’occlusive, la résonance du conduit vocal change rapidement. Ce changement est communément appelé une transition formantique avec une voyelle après. Delattre et al. (1955) montrent que les mouvements des formants (transitions) contribuent à la perception d’un lieu d’articulation particulier d’une occlusive qui dépend de la nature de la voyelle suivante. Selon la voyelle placée derrière la consonne, la trajectoire et la durée de la transition diffèrent. Les changements rapides de la fréquence des formants sont cruciaux pour l’identification des sons de la parole. Cette transition formantique est un solide indice pour discriminer les occlusives. Une partie de la reconnaissance des consonnes est liée aux transitions phonétiques qui dépendent de l’entourage vocalique (Lefèvre, 1985). Les transitions formantiques sont à elles seules une information suffisante pour l’identification de la parole (Liénard, 1972 p. 69). En effet, lorsque par exemple, l’explosion de la consonne est coupée, la seule présence de la transition formantique suffit pour rappeler le lieu d’articulation d’une consonne, même si le mode n’est pas forcément le bon (p. ex. « say » devient « day »). De même, si l’on insert un silence entre l’explosion et la transition, une consonne supplémentaire apparaît (p. ex. « say » devient « stay ») (Tuller, Case, Ding, & Kelso, 1994). Cependant, la pente de la transition joue un rôle important dans l’identification de la parole. La Figure 7 présente les différents indices impliqués dans l’identification de la syllabe. En haut, pour l’occlusive /t/ avec la voyelle /è/ (ai), la transition du F2 est droite donc le bruit d’explosion (B) de la consonne va contrôler la discrimination. En bas, au contraire, c’est la transition du F2 qui contrôle l’identification pour l’occlusive /p/.

Figure 7 : Schéma montrant l’importance de la transition du F2 pour la discrimination des consonnes (tiré de Virole & Cosnier, 2004).

Cette transition formantique est différente selon le lieu d’articulation de la consonne et varie également selon le contexte vocalique. Delattre et al. (1955) décrivent, pour chaque consonne, un point auquel les transitions des formants se rejoignent. Ainsi, les variations du second formant correspondraient aux mouvements fréquentiels à partir de ce locus acoustique jusqu’à l’état stable de la voyelle. Delattre et al. (1955) cherchent également à savoir si le début de la transition se fait au niveau du locus ou bien si la transition tend vers ce point fixe. Pour cela, ils vont créer un intervalle de silence de durée variable entre le locus et le début de la transition. Les résultats montrent que la transition ne peut démarrer au locus mais les consonnes ayant le même lieu d’articulation auront le même locus pour le second formant. Le locus correspond donc à un invariant acoustique qui définit le lieu d’articulation de la consonne. Pour Delattre, la transition du second formant est donc un indice fiable pour discriminer les lieux d’articulation. La durée des transitions de F2, pour les occlusives, est en moyenne de 50 ms (Delattre, 1966c).

Dans cette partie, nous avons donc décrit deux indices acoustiques (le VOT et la transition du F2) qui feront l’objet de nos expériences. Nous manipulerons temporellement les traits de voisement et de lieu d’articulation de consonnes occlusives afin d’étudier les effets sur l’intelligibilité de la parole. La modification temporelle sur les indices acoustiques va mener à des erreurs de catégories phonétiques si les contrastes sont mal perçus ou si les mécanismes de réparation sont inefficaces.

Nous sommes donc capables de gérer cette variabilité, nous verrons comment nous gérons la variabilité produite par la compression temporelle d’indices acoustiques dans le signal de parole. Nous étudierons donc ces indices qui permettent la segmentation du signal de parole en unités distinctives : les phonèmes. Les phonèmes sont composés de traits distinctifs qui permettent de créer des catégories phonétiques différant d’un trait seulement. Les signaux de parole sont stockés dans des représentations linguistiques cognitives. Nous allons présenter les principaux modèles de reconnaissance des mots parlés qui expliquent comment les représentations cognitives sont créées. Les différents modèles se sont succédés et développés, allant des modèles unimodaux aux modèles polymodaux et également des modèles sériels à des modèles connexionnistes.