1.5. La robustesse du signal de parole

Le signal de parole peut subir des altérations acoustiques provenant de diverses origines. De nombreuses études ont porté sur la perception de la parole dans le bruit, ou bien ayant subi des modifications spectrales, fréquentielles ou de débit. Cependant, malgré ces dégradations et grâce à la redondance des indices acoustiques du signal de parole et du contexte, l’auditeur est capable de récupérer des informations manquantes mais cela n’empêche tout de même pas quelques erreurs de perception.

Une étude a montré que même si on enlève ou on masque par du bruit des morceaux du signal de parole à intervalle régulier, le signal reste intelligible, ce qui rend compte, selon les auteurs, d’une redondance phonétique dans le signal de parole (Miller & Licklider, 1950). Le signal est redondant et peut donc être incomplet. De nombreuses expériences ont étudié la perception de la parole, dans des contextes différents de dégradation, de perturbation. L'intelligibilité de la parole est remarquablement robuste aux distorsions du signal acoustique. Par exemple, le signal de parole utilise essentiellement les fréquences comprises entre 100 et 8000 Hz, mais on peut supprimer une large partie de ces fréquences et le signal demeure compréhensible (Fletcher, 1929). C’est l’exemple quotidien de nos conversations téléphoniques où l’on perçoit un signal de parole filtré. On peut écrêter le signal, voire le discrétiser complètement (remplaçant les valeurs positives par +1 et les valeurs négatives par -1), et il demeure compréhensible (Licklider, 1946, 1950). Cela suggère que le signal de parole est très redondant au niveau acoustique, et aussi, sans doute, que le cerveau « va au delà » des données, c'est à dire qu’il interprète un signal incomplet.

L'un des arguments les plus souvent cités en ce sens est le phénomène de restauration phonémique mis en évidence par Warren (1970). Il s'agit d'une illusion dans laquelle on entend des sons de parole qui ont en fait été « enlevés » du signal et remplacés par du bruit blanc. Typiquement, les personnes décrivent entendre une phrase intacte avec un bruit superposé. Cet effet est très dépendant du contexte. Les mécanismes de substitution sont des mécanismes top-down par l’utilisation des connaissances lexicales et contextuelles du sujet. Mais d’autres mécanismes interviennent également car cet effet de restauration phonémique existe également pour les pseudo-mots qui par définition n’activent pas d’accès lexical. Samuel (1981) évalue également le phénomène de restauration phonémique. L’augmentation d’informations lexicales rend compte d’effets top-down qui facilitent la perception. La perception de la parole implique aussi bien des processus top-down que bottom-up. Les unités infra-lexicales peuvent, en effet, influencer l’identification de la parole. Dans le cas où ces mécanismes cognitifs sont faibles, ils peuvent limiter la perception de la parole. Cette étude s’accorde avec les modèles interactifs du traitement de la parole.

Un effet facilitateur du contexte est également mis en évidence dans d’autres études. French et Steinberg (1947) observent qu’un phonème est mieux identifié dans une phrase que dans un mot isolé et dans un mot isolé que dans une syllabe isolée. Nous pouvons percevoir une phrase correctement même si seulement la moitié des phonèmes est identifiée, les auteurs parlent en termes de quantité d’informations. De même, Greenberg (1999) montre que le phonème, en isolation, est plus variable au niveau de sa prononciation que la syllabe. Par conséquent, ces résultats mettent en évidence que la perception de la parole n’est pas seulement basée sur le traitement du signal mais également qu’elle est influencée par les connaissances de la langue. La redondance lexicale facilite la reconnaissance des mots mais pas celle des pseudo-mots du fait d’une absence de représentations lexicales.

Dans le cas de notre étude, nous allons compresser le signal de parole c’est-à-dire que nous allons réduire la durée de certains segments acoustiques. Nous examinerons donc les contraintes temporelles spécifiques qui s’exercent sur ce niveau segmental. La compression temporelle implique une perte d’informations et accélère l’enchaînement des évènements du signal qui les entourent. L’intelligibilité du signal de parole devrait être affectée par cette compression temporelle. Cependant, les auditeurs sont capables d’utiliser des stratégies de compensation qui consistent à remplacer les informations manquantes soit par des indices redondants présents dans le signal soit par des connaissances lexicales ce qui permettra une meilleure identification du signal de parole. Suites aux nombreuses variations que le signal de parole peut subir de manière intrinsèque ou extrinsèque, le système utiliserait des mécanismes de normalisation qui permettraient de compenser les variations induites par ces nombreuses situations de dégradation, comme la variabilité inter-locuteurs (pour une revue récente Johnson, 2005 ; voir également les travaux de Ladefoged & Broadbent, 1957 ; Remez, Rubin, Nygaard, & Howell, 1987). Par ailleurs, Kidd (1989) montre que les changements de débit n’affectent pas seulement le contexte immédiatement voisin mais peuvent avoir des effets sur des segments plus loin. La normalisation de ces variations nécessite des ressources cognitives ce qui est particulièrement problématique chez les personnes âgées ou ayant une perte auditive. La redondance du signal est un atout majeur pour parer à ces dégradations du signal acoustique. Les connaissances lexicales et les effets top-down sont des processus également importants dans l’intelligibilité de la parole. Le signal de parole est plus résistant encore si on laisse le temps aux participants de s’adapter à la compression temporelle. Une adaptation est possible : nous nous habituons à un débit rapide de parole.

Dans le cas de la compression temporelle de la parole, la durée des indices acoustiques devient tellement courte qu’elle atteint la limite imposée par la résolution temporelle du système auditif. Nooteboom (1979) observe que les temps de réponse sont plus lents, dans une tâche de décision lexicale, lorsque la parole est compressée ce qui indique qu’un effort cognitif supplémentaire est nécessaire dans la perception. L’effort cognitif supplémentaire pourrait correspondre au traitement temporel des indices acoustiques nécessaire à l’identification des mots. Les phonèmes avec des parties stables (p. ex. les voyelles et les fricatives) seront plus résistants que les phonèmes rapides ou sans partie stable. En effet, l’identification de la parole est sensible aux changements rapides du spectre : si la durée des transitions diminue, les changements de fréquence sont plus difficiles à détecter (van Wieringen & Pols, 1995).

L’analyse physique du signal acoustique de la parole et notamment des éléments qui la compose montre que nous pouvons les distinguer soit par leur dimension fréquentielle soit temporelle. De plus, nous savons que ces deux types d’information sont traités séparément par l’oreille et le cerveau (voir section ). à la sortie de l’oreille, au niveau du nerf auditif, les fréquences sont séparées et l’information temporelle est fidèlement transmise. Les caractéristiques acoustiques temporelles sont particulièrement influentes dans la perception de la parole. Berry (1969) déclare : « Auditory perception of speech per se deals mainly with the temporal management of information from the output » (Berry, 1969 : pp. 59). La dimension temporelle et les caractéristiques acoustiques du signal de parole sont donc des paramètres importants dans la perception de la parole et leurs modifications entraînent une perte d’intelligibilité.