3. La catégorisation de la parole

La reconnaissance de la parole consiste à partir du signal continu qui arrive à nos oreilles, de segmenter ce signal continu en unités discrètes, les phonèmes, puis d’apparier cette représentation infra-lexicale avec les entrées du lexique. Les phonèmes sont perçus sur un mode catégoriel. La question posée ici est comment nous passons du signal acoustique continu et variable à des représentations catégorielles. Plusieurs études ont été réalisées sur ce phénomène de perception catégorielle (Eimas & Corbit, 1973 ; Liberman, Harris, Hoffman, & Griffith, 1957 ; Repp, 1984). La perception catégorielle se définit comme la discrimination des seules différences entre phonèmes et non des variantes acoustiques d’un même phonème (Liberman et al, 1957). Dans une expérience d’identification d’un stimulus le long d’un continuum qui va d’une catégorie perceptive à une autre, les réponses des sujets basculent brusquement d’une catégorie à l’autre. La tâche d’identification détermine donc la frontière entre les catégories phonétiques. Alors que dans une tâche de discrimination de deux stimuli le long d’un continuum, les sujets dont meilleurs lorsque les deux stimuli appartiennent à deux catégories différentes que lorsque les deux stimuli sont des variantes d’une même catégorie. Cela signifie que l’auditeur est peu sensible aux différences entre les sons appartenant à une même catégorie phonémique. La tâche de discrimination permet donc de dire si la discrimination est bonne à travers les frontières des phonèmes (inter-catégorielle) ou faible à l’intérieur des catégories (intra-catégorielle). Cela correspond à la perception catégorielle. Par exemple, la modulation de l’indice acoustique, le Voice Onset Time (VOT), peut altérer la perception catégorielle des phonèmes (Abramson & Lisker, 1970 ; Lisker & Abramson, 1964 ).

La frontière phonétique dans le signal de parole change avec les variations de VOT. Un continuum artificiel fabriqué pour donner toute une gamme d’intermédiaires acoustiques entre deux sons, par exemple, entre un [ba] et un [pa]. La frontière phonétique divise le stimulus auditif en deux catégories : [b] et [p]. Quand on demande à des sujets naïfs de retranscrire (tâche d’identification) ce qu’ils entendent, on obtient généralement une catégorisation très franche : la plupart des stimuli sont perçus soit comme [pa], soit comme [ba] et la transition entre les deux catégories est très abrupte (Fig 9). Si on présente maintenant deux stimuli assez peu différents sur le continuum entre [ba] et [pa] et que l’on demande aux sujets d’effectuer une tâche de discrimination (les deux stimuli sont-ils identiques ou non ?), on obtient ici encore des réponses assez tranchées. La plupart des paires de stimuli sont très difficiles à discriminer, sauf à l’endroit de la frontière catégorielle (pic de discrimination), ou la performance devient très bonne.

Figure 9 : Exemple du résultat d’un test de perception catégorielle utilisant un continuum de 21 signaux variant du /ba/ au /pa/.

La frontière perceptive est représentée par le croisement des deux courbes (ici au niveau du stimulus 15).