4.2.1.3. Hiérarchie des traits et confusions en perception

Des travaux étudiant la perception de phonèmes dans un contexte bruité ont permis d’évaluer une certaine forme de robustesse des différents types de traits. Le signal de parole étant redondant, les auditeurs sont capables de dépasser la dégradation induite par le bruit, mais dans des proportions variables selon la catégorie de traits. Plusieurs éléments concourent ici aussi à soutenir le statut particulièrement important des traits de mode d’articulation.

Une étude sur les confusions dans une épreuve de perception de consonnes dans des syllabes CV présentées dans du bruit a fourni des indices sur ce qui permet de rapprocher les phonèmes. Ces regroupements se feraient essentiellement sur la base du partage du mode d’articulation (Hebben, 1986). Dans cette étude, la dominance de ce type de trait est remarquable, car elle est relevée aussi bien chez des adultes contrôles que chez des patients atteints de lésions cérébrales affectant les fonctions langagières. Bien que moins fondamental, le partage du voisement ressort tout de même comme un critère fiable, et ceci quel que soit le groupe. Par contre, le partage de traits de lieu d’articulation n’explique les confusions dans aucun groupe. Ce faible impact du lieu d’articulation est interprété comme pouvant être une conséquence du bruit blanc qui masque les stimuli. Les indices acoustiques de ces traits seraient particulièrement vulnérables à ce type de détérioration (Wickelgren, 1969). Cette interprétation est vraisemblable, étant donné que le partage du lieu d’articulation est un critère de rapprochement des consonnes chez ces mêmes individus et pour les mêmes stimuli dans une épreuve de mémorisation à court terme où les stimuli ne sont plus masqués.

Dans une étude plus ancienne, Miller et Nicely (1955) ont aussi montré que les erreurs de perception de consonnes insérées dans des syllabes CV (avec la voyelle /a/) et présentées dans du bruit ne se font pas au hasard pour 16 consonnes de l’anglais. Ils ne se sont cependant pas interrogés sur l’importance des traits de mode de façon exhaustive. L’analyse de covariance des traits impliqués dans les confusions suggère que la perception de chaque trait étudié (voisement, nasalité, affrication, durée, lieu d’articulation) est indépendante, comme si elle reposait sur 5 canaux distincts. Dès lors, la structure psychologique des phonèmes est interprétée en mettant l’accent sur l’indépendance des traits distinctifs. Dans cette étude, les matrices de confusion révèlent que le voisement et la nasalité sont mieux préservés que le lieu d’articulation. En 1972, Shepard a utilisé sur ces données la technique du MultiDimensional Scaling (MDS) pour étudier les distances psychologiques. Cela lui a permis de représenter les données dans un espace bi-dimensionnel défini par les axes Voisement et Nasalité. (pour une confirmation de l’efficacité du traitement du voisement par l’être humain, voir Sroka & Braida, 2005). Une autre analyse de confusions entre consonnes perçues, cette fois en position intervocalique, confirme l’importance des traits voisé, nasal et vocalique (Singh & Black, 1966). Enfin, les données de Wang et Bilger (1973), obtenues à partir de syllabes CV ou VC, répliquent en grande partie cet effet. Dans leur étude, le voisement, la nasalité et le trait fricatif apparaissent comme les contrastes qui résistent le mieux au bruit en perception de la parole. Toutefois, leur intelligibilité s’écroule par rapport aux autres traits si les stimuli sont présentés sans masquage par le bruit (Wang & Bilger, 1973). La saillance perceptive des traits varie donc selon les contextes : alors que les indices acoustiques du voisement et de la nasalité résistent au bruit, il est possible de favoriser l’extraction d’autres traits (relevant notamment du lieu d’articulation) en supprimant le bruit. Pour ce qui est du lieu d’articulation, en reprenant les données de différentes études, Wang et Bilger (1973) montrent qu’il est rarement bien extrait, même si son importance augmente dans la partie finale des expériences. Dans leur ensemble, ces données montrent surtout que le voisement résiste mieux au bruit que le lieu, ce qui n’en fait pas forcément un trait dont la représentation serait cognitivement privilégiée.

Plus récemment, Benki (2003) a également évalué les erreurs de perception de phonèmes dans du bruit. Il présentait pour cela des pseudo-mots anglais CVC, dans 4 conditions différant pour le rapport signal sur bruit. La différence essentielle de ses expériences avec les précédentes est qu’elles proposent une réponse ouverte, et non un choix forcé entre des alternatives, ce qui réduit les risques d’induire des stratégies perceptives (Sommers, Kirk & Pisoni, 1997). Par ailleurs, les participants sont des sujets plus naïfs que dans les autres recherches, concernant la phonétique et la phonologie. Dans ces conditions, les auteurs ont répliqué la grande robustesse du voisement, mais ont aussi plus clairement montré celle du mode, alors que les traits de lieu restent les moins bien perçus dans le bruit. Pour expliquer la préservation du voisement, ils n’évoquent cependant pas une place prédominante de ce type de trait dans une hiérarchie de représentations. Ils évoquent plutôt des explications acoustiques. Les trois types de traits sont sous-tendus par de multiples indices acoustiques. Néanmoins, les caractéristiques temporelles de la configuration d’énergie dans les basses fréquences, au début du signal, constituent des indices fondamentaux pour le voisement d’une consonne (Liberman, Delattre & Cooper, 1958). De même, le mode d’articulation est avant tout déterminé par l’aspect temporel du changement d’intensité entre la consonne et la voyelle, généralement dans les basses fréquences du signal (exception faite de certaines fricatives, Miller & Nicely, 1955). Par contre, la perception du lieu dépend davantage des transitions des formants F2 et F3, dans de plus hautes fréquences (Miller & Nicely, 1955). Or, la détérioration exercée par le bruit qui dégrade ici le signal de parole porterait davantage sur les composantes spectrales que sur les aspects temporels des indices acoustiques, ce qui préserve relativement bien le VOT, par exemple, indice très important pour identifier le voisement (Lisker & Abranson, 1964). De plus, les contrastes sous-tendus par de basses fréquences, tels que ceux du voisement et du mode, susciteraient une variation plus prononcée de la synchronisation neuronale (Synchrony capture hypothesis, Kluender, Lotto & Jenison, 1995), et celle-ci permettrait donc une meilleure perception dans le bruit.

Une autre forme de détérioration du signal a été utilisée pour étudier les erreurs de perception de parole : la suppression d’une partie plus ou moins longue du signal à partir du début (gating) (Warner, Smits, McQueen & Cutler, 2005). Les données sont un peu différentes de celles observées à partir d’une détérioration par le bruit. Dans une épreuve d’identification perceptive, les auteurs remarquent que le trait le mieux restitué est le mode d’articulation. Le voisement est significativement moins bien identifié, quelle que soit la taille de la portion de signal supprimée. Dans ces conditions, le lieu d’articulation est mieux restitué que le voisement, hormis dans les cas où la plus grande portion du signal est enlevée (les auditeurs identifient alors aussi mal le lieu que le voisement, et seul le mode échappe un peu à l’altération du signal). Dans l’étude de Warner et al. (2005), deux différences apparaissent donc par rapport aux travaux utilisant une détérioration par le bruit : le voisement est moins bien perçu que le lieu d’articulation, et le lieu d’articulation est presque aussi bien identifié que le mode. Cette différence est peut-être en partie due à la langue étudiée (le néerlandais et non l’anglais). Actuellement, en néerlandais, certaines distinctions de voisement sont en train de disparaître, et le phénomène de dévoisement final est aussi observé dans cette langue. Ce trait devient peut-être moins pertinent dans cette langue, il transmet en tout cas moins d’information que d’autres traits, et il semble que son statut décroisse. Il est difficile de faire la part des choses entre l’effet de la différence de langue et celui de la différence de détérioration opérée dans ces diverses études.

Aussi semble-t-il raisonnable de retenir que le mode apparaît comme le type de trait le mieux restitué en perception de parole, le voisement et le lieu sont moins bien identifiés, mais leur position respective dans l’échelle d’identification n’est pas stable. Enfin, un résultat annexe semble intéressant à l’égard des relations de dépendance entre types de traits. Les réponses observées par Warner et al. (2005) montrent que l’identification du voisement en coda de syllabe CVC est meilleure pour les consonnes fricatives que pour les occlusives. Ce phénomène pourrait être ajouté à la liste des arguments plaçant le voisement en dessous de la catégorie de mode, dans une relation de dépendance, dans la hiérarchie des types de traits.