1.1.2.La catégorisation

La reconnaissance de la parole consiste à partir du signal continu qui arrive à nos oreilles, de segmenter ce signal continu en unités discrètes, les phonèmes, puis d’apparier cette représentation infra-lexicale avec les entrées du lexique. Les phonèmes sont perçus sur un mode catégoriel. La question posée ici est comment nous passons du signal acoustique continu et variable à des représentations catégorielles.

Plusieurs études ont été réalisées sur ce phénomène de perception catégorielle (Eimas & Corbit, 1973 ; Liberman, Harris, Hoffman, & Griffith, 1957 ; Repp, 1984). La perception catégorielle se définit comme la discrimination des seules différences entre phonèmes et non des variantes acoustiques d’un même phonème (Liberman, Harris, Hoffman, & Griffith, 1957). Dans une expérience d’identification d’un stimulus le long d’un continuum qui va d’une catégorie perceptive à une autre, les réponses des sujets basculent brusquement d’une catégorie à l’autre. La tâche d’identification détermine donc la frontière entre les catégories phonétiques. Alors que dans une tâche de discrimination de deux stimuli le long d’un continuum, les sujets dont meilleures lorsque les deux stimuli appartiennent à deux catégories différentes que lorsque les deux stimuli sont des variantes d’une même catégorie. Cela veut dire que l’auditeur est peu sensible aux différentes entre les sons appartenant à une même catégorie phonémique. La tâche de discrimination permet donc de dire si la discrimination est bonne à travers les frontières des phonèmes (inter-catégorielle) ou faible à l’intérieur des catégories (intra-catégorielle). Ce qui correspond à la perception catégorielle. Par exemple, la modulation de l’indice acoustique, le Voice Onset Time (VOT), peut altérer la perception catégorielle des phonèmes (Abramson & Lisker, 1970 ; Lisker & Abramson, 1964 ). La frontière phonétique dans le signal de parole change avec les variations de VOT. Un continuum artificiel fabriqué pour donner toute une gamme d’intermédiaires acoustiques entre deux sons, par exemple, entre un [ba] et un [pa] (Figure 1). La frontière phonétique divise le stimulus auditif en deux catégories : [b] et [p]. Quand on demande à des sujets naïfs de retranscrire (tâche d’identification) ce qu’ils entendent, on obtient généralement une catégorisation très franche : la plupart des stimuli sont perçus soit comme [pa], soit comme [ba] et la transition entre les deux catégories est très abrupte (Figure 2).Si on présente maintenant deux stimuli assez peu différents sur le continuum entre [ba] et [pa] et que l’on demande aux sujets d’effectuer une tâche de discrimination (les deux stimuli sont-ils identiques ou non ?), on obtient ici encore des réponses assez tranchées. La plupart des paires de stimuli sont très difficiles à discriminer, sauf à l’endroit de la frontière catégorielle (pic de discrimination), ou la performance devient très bonne. En résumé, la perception catégorielle correspond au fait qu’il est beaucoup plus difficile de discriminer une paire de stimuli quand ils sont à l’intérieur d’une catégorie qu’à la frontière entre deux catégories, même quand la distance acoustique entre les membres d’une paire est maintenue identique.

Figure 1 : Représentations spectrographiques des sons [ba] et [pa], (a) On remarque la barre de voisement pour [ba] alors qu’il n’y en a pas pour [pa] (b).
Figure 2 : Frontière catégorielle lors d’une tâche d’identification d’un continuum [ba]-[pa].

Des facteurs phonétiques et linguistiques influencent la frontière catégorielle et peuvent l’altérer (Repp & Liberman, 1987). Le lieu d’articulation comme le débit influencent la perception des stimuli dans la région de la frontière entre voisée et non voisée mais également la perception des stimuli à l’intérieur de la catégorie non voisée. Les processus dépendant du contexte peuvent donc avoir lieu au-delà des frontières entre les catégories, ainsi qu’au sein d’une catégorie.La perception catégorielle est un phénomène dynamique non-linéaire (Tuller, Case, Ding, & Kelso, 1994). Les catégories phonétiques ont une structure graduée, un meilleur exemplaire (plus prototypique) au centre de la catégorie (Kuhl, 1991 ; Miller, 2001 ; Miller, Connine, Schermer, & Kluender, 1983 ; Miller & Volaitis, 1989 ). Cet exemplaire correspond à une structure possédant les détails les plus fins sur la représentation acoustico-phonétique (« fine phonetic detail », Hawkins, 2003). Selon Kuhl (1991), les sons sont identifiés par comparaison avec ces prototypes et les différences perçues entre les sons diminuent lorsqu’on se rapproche du prototype. Les facteurs acoustico-phonétiques peuvent altérer la perception de ce meilleur exemplaire de la catégorie, comme par exemple, le changement de débit du locuteur qui modifie la position du meilleur exemplaire. L’auditeur est très sensible à la gradation des catégories ce qui révèle une représentation phonétique très richement structurée. Dans notre étude, la compression temporelle de la parole va par conséquent induire des confusions phonétiques perceptives, du fait de l’influence du raccourcissement de la durée d’indices acoustiques. La frontière catégorielle va contenir une zone d’ambiguïté dans laquelle les erreurs vont être plus fréquentes.

Dans cette partie, nous avons donc montré que le problème le plus important dans l’identification de la parole est la variabilité du signal acoustique. Les variations sont de différentes natures et ces phénomènes rendent difficile l’établissement des représentations phonémiques des sons de parole. Les problèmes de segmentation et de catégorisation dérivent pour une part des phénomènes de coarticulation. Le phénomène de coarticulation, dont l’assimilation en est une manifestation, produit de la variabilité et complique donc la reconnaissance des mots parlés. Le signal de parole est très variable et l’absence d’invariants rend encore plus difficile l’encodage et le traitement du signal acoustique. La question qui se pose est comment la perception humaine résout ce problème de variabilité. La coarticulation peut faciliter la perception de la parole, mais elle implique également des variations importantes du signal physique de parole. Elle ne permet pas que le signal puisse être découpé en morceaux séparés par des frontières clairement repérables. Les sons s’influencent entre eux et fournissent des indices acoustiques aux segments adjacents.