2.8.3.Le rôle relatif de chaque indice acoustique

En ce qui concerne la nature de l’indice acoustique et la part relative de chacun des indices dans l’identification de la parole, nos résultats montrent une différence des effets de la compression temporelle selon la nature de l’indice acoustique. Dans les Expériences 1 et 2, où les deux indices sont manipulés indépendamment l’un de l’autre, les performances sont différentes et mettent en évidence un effet de la compression sur l’indice de voisement mais pas sur l’indice de lieu d’articulation. L’indice de voisement est donc sensible à la réduction temporelle de sa durée, aussi bien pour les occlusives voisées que non voisées, alors que l’indice de lieu d’articulation ne l’est pas. Le voisement est un indice temporel plus pertinent que le lieu d’articulation dans l’identification de la parole. Nos résultats sont en accord avec les travaux de Niyogi et Ramesh (2003) qui montrent que le VOT est bon indice temporel pour discriminer deux occlusives selon leur voisement. Lorsque la durée du VOT est réduite de 1/3, Andruski, Blumstein et Burton (1994) n’observent pas de différence significative sur les temps de catégorisation de phonèmes. Par contre, si la réduction du VOT est égale à 2/3, les auteurs montrent une différence significative dans les temps de catégorisation. Les processus de catégorisation sont plus lents car le nombre d’exemplaires disponibles a été réduit.

De plus, l’Expérience 3 a mis en évidence deux types de relation entre le trait de voisement et le trait de lieu d’articulation. Pour les occlusives voisées, les effets de compression des deux traits s’ajoutent, ce qui démontre un traitement en parallèle, indépendant des deux traits. Au contraire, pour les occlusives non voisées, une intégration complexe des deux traits est observée ce qui rend compte d’une interaction entre les deux traits acoustiques. Les résultats soulignent particulièrement une sensibilité plus marquée des occlusives alvéolaires non voisées à la compression temporelle [- voisée ; + alvéolaire]. L’identification du lieu d’articulation est meilleure pour les occlusives non voisées que pour les occlusives voisées. Nos résultats suggèrent que le trait de voisement prédomine sur l’indice de lieu d’articulation alors que l’indice de lieu d’articulation prédomine sur le VOT.

Shinn, Blumstein et Jongman (1985) montrent des résultats intéressants sur la réduction voire l’annulation de l’effet du débit si les dimensions temporelle et spectrale sont manipulées en même temps. Les participants sont moins affectés par le changement de débit pour des phrases modifiées au niveau spectro-temporelle que dans la condition où la dimension temporelle ou spectrale uniquement est modifiée. L’effet de débit est donc moins important dans la condition spectro-temporelle que dans la condition temporelle. Les auteurs postulent que l’identification est beaucoup plus précise dans la condition spectro-temporelle car la pente de la transition est plus raide. La présence des deux indices qui covarient naturellement mène donc à une meilleure précision d’identification et semble être moins influencée par le débit. Ces résultats suggèrent que les participants n’utilisent pas l’information temporelle et qu’il n’y a pas de mécanismes d’ajustements car assez d’informations sont données par les fréquences des formants. Nous pouvons donc rapprocher nos résultats de cette étude, en suggérant que la compression temporelle des transitions modifie la pente mais il reste suffisamment d’informations pour identifier la consonne. Les meilleures performances obtenues dans l’Expérience 2 s’expliquent donc par le fait que les participants ne traitent pas l’information strictement temporelle de la transition, donc la compression n’a pas d’effet. Par contre, les participants vont être sensibles aux variations de pente de la transition du second formant qui est de nature spectro-temporelle. Dans notre étude, cette association des deux traits diminue la précision de discrimination. Lisker et Abramson (1964) montrent que le lieu d’articulation tout comme le débit exerce une influence sur la valeur du VOT. Plus le mouvement articulatoire s’accélère, plus la valeur de VOT est petite (Hardcastle, 1973). La valeur de VOT devient plus longue lorsque le lieu d’articulation se déplace de l’avant à l’arrière du tractus vocal (de bilabial à vélaire) (Fisher-Jørgensen, 1954 ; Peterson & Lehiste, 1960). Nous retrouvons cette relation dans nos résultats pour les occlusives non voisées : la durée du VOT est plus longue pour les occlusives alvéolaires que pour les bilabiales. Une explication proposée est que les occlusives bilabiales sont prononcées plus rapidement que les autres (Fant, 1960 p.199). De même, plus la zone de contact articulatoire est étendue, plus la valeur de VOT est longue (Stevens, Keyser, & Kawasaki, 1986).

Par ailleurs, Miller et Nicely (1955) apportent une analyse de confusions de consonnes lors d’une tâche d’identification en anglais de syllabes du type CV dans le bruit. L’expérience porte sur la qualité de transmission de l’information lorsque deux mots se différencient uniquement sur la consonne initiale par un trait distinctif. Les résultats de cette étude montrent que le voisement et le mode d’articulation sont des traits phonétiques plus résistants au bruit que le lieu d’articulation qui est plus souvent confondu. Les indices de lieu d’articulation sont les plus vulnérables. Ce résultat tient au fait que le bruit est un masque spectro-temporel qui va affecter, plus particulièrement, la dimension spectrale du lieu d’articulation. De plus, d’après une mesure de la quantité d’information transmise, le contraste consonantique est moins robuste en position de coda qu’en position d’attaque dans la syllabe. Dans notre étude, nous n’avons pas étudié cette position de coda dans la syllabe puisque nous utilisions des pseudo-mots bisyllabiques de forme CVCV. Des études dans le bruit (Miller & Nicely, 1955  ; Pols, 1983) montrent que les segments sont la plupart du temps confondus avec des phonèmes de la même classe (p.ex. les occlusives sont confondues avec des occlusives).

Nous émettons l’hypothèse selon laquelle la fréquence d’usage des consonnes pourrait expliquer certaines erreurs, nous aurions tendance à rappeler la consonne la plus fréquente de la langue. Ce phénomène serait encore plus vrai pour les pseudo-mots puisque l’influence lexicale est inexistante. Le Tableau présente les fréquences des consonnes en français selon leur position dans la syllabe. De manière générale, les occlusives alvéolaires sont plus fréquentes que les bilabiales. Le tableau met en évidence une fréquence d’occurrence importante de l’occlusive alvéolaire non voisée aussi bien en attaque de syllabe qu’après la voyelle (Dos Santos, 2007). Cependant, nous n’observons pas ce phénomène dans nos résultats. Au contraire, l’occlusive alvéolaire non voisée est la plus difficilement rappelée. L’intégrité acoustique de cette consonne est nécessaire pour la discriminer. La présence importante de cette consonne en français reflète un traitement acoustique fin de la combinaison des traits acoustiques.

Tableau 16 : Fréquences des consonnes du français selon leur position dans la syllabe. Tableau tiré de la thèse de Christophe Dos Santos (2007), à partir de la base de données Lexique 3.

Pour une explication de nos résultats, nous nous basons sur les règles dynamiques qui gouvernent l’enchaînement des phonèmes dans la parole continue. Notamment, les règles de coarticulation des occlusives en position intervocalique VCV.