1.6. La compression temporelle de la parole

La perception de la parole compressée a été remise au goût du jour depuis les années 1990. Les applications de la parole compressée temporellement sont multiples, notamment pour une recherche rapide d’informations pertinentes dans un long enregistrement (Janse, 2003). En 1991, un projet néerlandais a porté sur l’amélioration de l’accès aux journaux pour les personnes avec un handicap visuel. La lecture rapide des journaux par un logiciel était, selon les participants, plus intelligible que la vitesse de lecture normale. Ce projet a donc montré que l’intelligibilité de la parole était plutôt bien préservée même à des taux de compression forts. Les auditeurs préfèrent une lecture de parole plus rapide, même si elle est synthétique et de mauvaise qualité, ce qui rend compte d’une très grande résistance de la perception de la parole. Les auditeurs sont également capables de s’adapter à des taux de compression importants sur du signal synthétisé. Zemlin, Daniloff et Shriner (1968) montrent qu’une compression de moitié n’affecte pas significativement l’intelligibilité de la parole. Foulke et Sticht (1969) rapportent que des auditeurs présentant un trouble de la vision préfèrent une vitesse de lecture, par le logiciel, aux taux de compression de 35-40%.

La compression temporelle artificielle de la parole serait plus intelligible que lorsqu’on demande à un locuteur d’accélérer son débit de parole. La parole produite rapidement implique une articulation réduite c’est-à-dire une distorsion à la fois temporelle et fréquentielle ce qui diminue l’intelligibilité du signal de parole. La parole rapide reste intelligible jusqu’à une compression de presque trois fois sa durée initiale, en particulier, si on permet au sujet de s’adapter au débit rapide de la parole. Dupoux et Mehler (1990) compressent temporellement des mots, sans modification de la structure spectrale mais en modifiant les paramètres de durée. Une expérience pilote à 50% de compression a montré des performances de 100% dans une tâche d’identification du phonème initial d’un mot, utilisant des occlusives. Un facteur important dans la perception de la parole compressée est la résolution temporelle de notre système auditif. Si l’on réduit trop le signal, la résolution temporelle n’est pas assez efficace pour permettre une analyse précise du signal. Foulke (1971) suggère que l’organisation temporelle n’est pas pertinente à un débit normal de parole mais elle devient très critique pour la compréhension lorsque le taux de compression augmente.

Une partie des résultats de Dupoux et Mehler (1990) suggère que la compression temporelle affecte principalement la capacité de discrimination des sons de parole. Garvey (1953) a également montré que des mots isolés restaient intelligibles (plus de 90%) à un taux de compression de 50% et moins. Alors que des taux de compression plus importants entraînent une diminution très rapide des performances.

La perte d’informations va induire une perte d’intelligibilité et ceci surtout sur les segments ayant une partie stable courte ou sans partie stable comme par exemple les occlusives par opposition aux voyelles ou aux fricatives. De même, pour les changements fréquentiels rapides au niveau des transitions, il a été montré que les changements de fréquence étaient plus sensiblement détectés pour des stimuli longs que pour des stimuli plus courts, à cause d’une augmentation du temps de traitement du stimulus (van Wieringen & Pols, 1995). Miller, O’Rourke et Volaitis (1997) montrent que la durée de la transition initiale (distinguant /b/ et /w/) est jugée selon le débit de prononciation. Cela veut dire que plus le stimulus est court, plus il va être difficile de détecter les changements de fréquence. En outre, quand la durée de la transition diminue, la largeur de bande du signal augmente. Ce qui peut induire une limite dans la discrimination fréquentielle d’un stimulus court ou compressé.

Le taux de compression affecte la perception des phonèmes c’est-à-dire l’information acoustique correspondant spécifiquement à un trait phonétique (Gay, 1978  ; Gottfried, Miller, & Payton, 1990  ; Lindblom, 1963  ; Miller, Green, & Reeves, 1986  ; Nooteboom, 1981  ; Summerfield, 1975). Les durées des consonnes sont relativement moins réduites que la durée des voyelles (Gay, 1978 ; Max & Caruso, 1997). Les indices acoustiques pertinents dans l’identification des consonnes sont la plupart du temps des indices brefs et rapides d’où la conservation de la durée des consonnes, au détriment des voyelles qui sont constituées d’une partie stable importante. Ces effets de contexte et de débit de parole n’affectent pas seulement la partie stable des voyelles mais également les trajectoires des transitions des formants, qui sont considérées comme des indices dynamiques. Lindblom et Studdert-Kennedy (Lindblom & Studdert-Kennedy, 1967) déclarent que la perception des voyelles coarticulées est basée sur la direction et la pente des transitions formantiques. L’auditeur compense et s’adapte à la réduction de durée et aux changements de fréquences formantiques.

Nous allons voir maintenant les raisons pour lesquelles la parole accélérée naturellement par le locuteur est moins intelligible que la parole de synthèse compressée.