1.1.3.La coarticulation

Les travaux ultérieurs issus des laboratoires d’Haskins ont montré que la catégorisation phonétique était un processus extrêmement complexe. L’une des découvertes fondamentales de cette recherche est qu’il n’existe pas de correspondance bi-univoque entre les propriétés acoustiques des stimuli et la structure des catégories phonétiques. L’un des facteurs qui rend cette mise en correspondance très complexe est appelé la coarticulation (Liberman, Cooper, Shankweiler, & Studdert-Kennedy, 1967).Un problème basique de la perception de la parole est que l’on ne produit pas chaque phonème indépendamment, du fait de la transmission rapide de l’information. Les sons de parole sont coarticulés c’est-à-dire que les gestes articulatoires d’un même phonème se chevauchent, sur l’axe temporel, à ceux des phonèmes adjacents. La coarticulation correspond à la répartition d’informations acoustiques sur un ensemble de syllabes ou sur plusieurs syllabes consécutives. Par exemple, dans le mot ‘qui’, les gestes articulatoires pour [k] et pour [i] démarrent en même temps, résultant dans un signal mêlant les informations pour les deux segments.

La coarticulation nous permet de produire des séquences de segments à un débit très élevé, mais complique considérablement la perception : le premier problème est celui de la segmentation, tout fragment de signal acoustique contient nécessairement des informations pertinentes pour plusieurs traits phonétiques. La coarticulation va augmenter le taux d’informations phonétiques transmises ce qui peut compliquer les mécanismes de perception car cela s’oppose à une simple correspondance entre les gestes phonétiques et les indices acoustiques successifs. Il est donc impossible de diviser le signal acoustique en morceaux discrets qui correspondraient à notre perception discrète en phonèmes. Mais la coarticulation peut également générer de la redondance, ce qui facilite la perception. La coarticulation facilite le traitement du son suivant (Martin & Bunnell, 1981 ; Whalen, 1991 ). Lorsque le débit de la parole s’accélère, il existe un phénomène de coarticulation important. De plus, la coarticulation dépend de ce qui précède et de ce qui suit donc la variabilité contextuelle est importante empêchant encore davantage de séparer les phonèmes un à un (Perkell & Klatt, 1986). Le second problème, appelé problème de la variabilité acoustique, est dû au fait que les propriétés acoustiques qui permettent d’identifier un segment donné varient avec le contexte dans lequel il apparaît. Par exemple, la forme de l’information acoustique caractéristique de [k] suivit par [i] est différente de celle pour [k] suivit de [u]. De plus, étant donnée la nature des processus articulatoires, un même contraste phonétique est signalé par plusieurs indices acoustiques qui interagissent entre eux : c’est le phénomène de redondance du signal (Lisker, 1986).

La coarticulation se manifeste, notamment sous la forme de phénomènes d’assimilation correspondant au transfert des caractéristiques ou des traits d’un son sur un son immédiatement voisin ou parfois aussi à distance. La direction des assimilations, régressives (vers la gauche), progressives (vers la droite) ou double (dans les deux sens) est déterminée par deux caractéristiques. D’une part, la position du son dans la syllabe ou le mot. Un son qui se trouve en position initiale de syllabe ou de mot, se trouve dans une position forte et peut transmettre une ou plusieurs de ses caractéristiques à des sons voisins. En revanche, un son qui termine une syllabe ou un mot, se trouve dans une position faible et influencera plus difficilement son entourage. Il s’agit donc ici de la force positionnelle relativedes sons. D’autre part, la force articulatoire du son peut jouer un rôle : plus la force articulatoire d’un son est élevé, plus il est capable de transmettre ses propriétés à son entourage. Delattre (1966b)propose le classement suivant pour le français : [p t k] force 1 (les consonnes les plus fortes), [l f] force 2, [b d g m n s ʃ] force 3, [ɲ j] force 4 et [ʁ w ɥ v z ʒ] force 5 (les consonnes les moins fortes). La force dont il est question ici est la force intrinsèque relativedes sons.

La réalisation phonétique d’un mot est déterminée par les propriétés du phonème au début du mot qui le suit ou par celles du phonème à la fin du mot qui le précède. Par exemple, la paire robe/grise comporte deux consonnes voisées à la suite donc le /b/ reste, mais dans le cas de la paire robe/sale, une consonne voisée et une non voisée se succèdent donc le /b/ devient un /p/. C’est une assimilation de voisement. En anglais, le phénomène d’assimilation s’effectue sur le lieu d’articulation, par exemple, les consonnes dentales, /d/, /t/ et /n/, changent l’expression gree n bag en gree m bag (Lahiri & Reetz, 2002). Dans ces deux exemples, le phonème en position initiale du mot transfère certaines caractéristiques phonétiques au phonème final du mot précédent.

En ce qui concerne l’accès à la représentation du mot assimilé, il existe trois hypothèses. La première hypothèse est que le système tolère un défaut d’appariement de forme de surface. La seconde hypothèse correspond à un phénomène de « sous-spécification », c’est-à-dire que la caractéristique qui change n’est pas spécifiée dans la représentation d’où un appariement correct entre les variantes de surface et la représentation. La dernière hypothèse repose sur l’existence de mécanismes d’inférence régressive qui effectue une ré-analyse du phonème assimilé selon son contexte phonologique ce qui permet de retrouver l’identité sous-jacente du phonème. La question que l’on se pose ensuite est si l’accès au lexique est perturbé. Il n’y a pas d’activation des représentations lorsque le contexte ne permet pas l’assimilation donc le système de traitement tolère des variations phonologiques tant que le contexte est compatible/adapté aux variations. Cependant, l’hypothèse de Gow (2001) vient contredire l’explication précédente car l’assimilation est utilisée pour anticiper le phonème suivant. Les temps de réponse (TR) devraient être plus courts lorsque l’assimilation se produit c’est-à-dire lorsqu’on détecte le premier phonème à droite (TR assimilé < TR non approprié < TR non assimilé donc anticipation). Le système pourrait, avant même de traiter le premier phonème à droite, restreindre la compétition lexicale aux candidats permettant l’assimilation. Les informations apportées par le phonème assimilé permettent d’anticiper le phonème et de moduler l’activation des candidats dans la compétition lexicale, par exemple, dans la phrase « (18) They found te n buns in the kitchen » (tirée de Gow Jr., 2001), une assimilation du lieu d’articulation bilabial laisse apparaître le son [m] (voir également Gow Jr., 2003).

Par ailleurs, l’assimilation peut induire une ambiguïté lexicale lorsque le phonème assimilé produit des variations dans la forme de surface qui crée un autre mot. Snoeren, Hallé et Segui (2006) montrent que l’assimilation du voisement en français est graduelle et asymétrique. L’assimilation n’est pas totale lorsqu’il existe une ambiguïté lexicale potentielle (rate/rade) et elle est effective lorsqu’elle donne lieu à un pseudo-mot (robe/rope). Les consonnes non-voisées donnent lieu à une assimilation plus importante que les voisées. Le système de traitement est moins tolérant face aux variations de surface lorsque l’assimilation provoque une ambiguïté lexicale. Un contexte sémantique peut pallier à cette intolérance. L’information contenue dans la consonne finale permet de retrouver la forme sous-jacente. Elle contient l’information sur deux positions et permet de la re-attribuer aux différents phonèmes ce qui enlève toute ambiguïté.

Les phénomènes de coarticulation donnent essentiellement lieu à des modifications dans l’organisation temporelle des traits, chaque trait restant associé à un pattern d’indices acoustiques invariants. La coarticulation artificielle engendrée dans nos expériences, par compression temporelle, va donc induire une désorganisation temporelle des traits phonétiques manipulés : plus la dégradation temporelle sera importante, plus l’identification des phonèmes sera difficile.

Le premier problème qui se pose, après la variabilité intrinsèque liée à la production de la parole, est de savoir comment ces caractéristiques articulatoires sont représentées au niveau cognitif, cette question fait toujours l’objet d’un débat. Le problème porte sur le codage des sons de parole sous la forme de leurs mouvements articulatoires, plutôt que sous la forme de traits phonétiques. La théorie motrice propose une représentation des sons de parole sous la forme de leurs gestes articulatoires. Le problème majeur est la variabilité entre les individus, elle ne facilite pas la représentation d’un son correspondant à un seul ensemble de gestes articulatoires.