Comprendre la parole inversée

La parole jouée à l’envers a longtemps été utilisée comme condition contrôle dans des expériences comportementales portant sur le traitement du langage (Mehler, Jusczyk, Lambertz, Halsted, Bertoncini & Amiel-Tison, 1988). Dans l’étude de Mehler, et al. (1988), les auteurs testaient les capacités de nourrissons de quatre jours à discriminer des langues étrangères de leur langue maternelle grâce à la technique de succion non nutritive. La parole inversée utilisée comme condition contrôle dans cette étude correspondait à une séquence de parole normale inversée sur la totalité de sa durée. L’intérêt d’utiliser la parole inversée comme condition contrôle est qu’elle présente le même contenu physique que la parole normale, sauf qu’on ne peut en dégager aucun sens et que les règles articulatoires de la langue sont totalement violées. Il s’agit en fait d’un bruit très apparié au signal de parole d’origine.

Les travaux de Saberi & Perrott (1999), publiés dans la revue Nature, ont été les premiers à mettre en évidence une capacité cognitive à reconstruire de la parole inversée. Dans leur étude, il ne s’agissait pas de retourner la totalité du signal de parole, mais de petites portions appelées « fenêtres d’inversions ». Les auteurs ont segmenté le signal de parole en plusieurs fenêtres de même durée (la taille des fenêtres testée était de 50 à 200 ms). Les portions ont ensuite été retournées sur leur axe temporel puis recollées ensemble. Les auteurs observent que pour des fenêtres d’inversion de 50 ms, l’intelligibilité est intacte et que le seuil de 50 % d’intelligibilité est atteint pour des fenêtres d’inversion d’une durée de 130 ms. Il faut cependant noter que les participants testés ne l’étaient que sur une phrase unique répétée plusieurs fois avec les différentes tailles d’inversion, et que les performances mesurées n’étaient en fait qu’une estimation subjective de l’intelligibilité de la phrase.

En 2001, les travaux de Greenberg et Arai ont montré également que, dans une certaine mesure, les auditeurs étaient capables de traiter et de reconstruire de la parole anglaise inversée localement. Les auteurs ont testé des intervalles d’inversion de 20 à 180 ms sur un corpus de phrases plus important que celui de Saberi et Perrott, pour éviter un apprentissage des phrases. Les phrases étaient diffusées en champ libre par des haut-parleurs. Les auditeurs pouvaient écouter chaque phrase jusqu’à quatre fois avant de transcrire leur réponse. Les résultats montrent que l’intelligibilité décroît régulièrement lorsque la taille de l’inversion augmente et présente un plancher à partir de 100 ms d’inversion. Les auteurs observent une forte corrélation entre l’intelligibilité des phrases inversées et le contour d’un spectre de modulation complexe (représentation intégrant les paramètres d’amplitude et de phase du signal). Les conclusions de cette étude portent sur l’importance des composantes de phase et d’amplitude de l’enveloppe spectrale pour l’intelligibilité.

Concernant le français, les travaux en parole inversée de Meunier, Cenier, Barkat & Magrin-Chagnolleau (2002) visaient à quantifier les capacités du système cognitif à récupérer les informations lexicales dégradées par l’inversion. Meunier, et al. (2002), ont utilisé cinquante phrases issues d’une base de données, prononcées par dix locuteurs différents. Pour créer les stimuli, le signal de parole a été inversé de n millisecondes toutes les n millisecondes grâce au logiciel MATLAB. Les auteurs ont testé dix fenêtres d’inversion de longueur croissante, soit dix valeurs de n : 20, 40, 50, 60, 70, 80, 100, 140, 180 et 0 ms (contrôle). Les performances de reconstruction sont obtenues en codant manuellement les retranscriptions en pourcentage de mots exacts par rapport au nombre de mots de la phrase stimulus. Ainsi, pour chaque participant, on obtient un pourcentage de reconstruction moyen pour chaque condition d’inversion. Les résultats montrent une dégradation de l’intelligibilité lorsque la taille des fenêtres d’inversion du signal augmente (Figure 4). Les auteurs observent une très forte corrélation négative (r = -0.95) entre l’intelligibilité et la taille de la fenêtre d’inversion. L’intelligibilité est conservée à 90 % lorsque la fenêtre d’inversion est inférieure à 50 ms. Puis entre 50 et 100 ms, les performances de restitution des mots chutent progressivement jusqu’à 25 % ; enfin lorsque l’inversion devient supérieure à 100 ms, l’intelligibilité reste inférieure à 10 %.

Figure 4: Courbes d’intelligibilité obtenues pour sept participants en fonction de la durée de la fenêtre d’inversion

Ces résultats sont comparables à ceux de Greenberg & Arai (2001) en anglais et montrent qu’il existerait bien une capacité du système cognitif à reconstruire la parole inversée, cependant on constate de moins bonnes performances pour les locuteurs anglais (Meunier, et al., 2002). En effet, le seuil des 50 % d’intelligibilité est atteint plus précocement pour les locuteurs anglophones (60 ms) que pour les locuteurs francophones (80 ms). Cette différence pourrait provenir d’une divergence de codage des réponses car le codage était manuel dans l’étude de Meunier, et al. (2002) et effectué automatiquement par un algorithme dans l’étude de Greenberg & Arai (2001). Il est possible que le codage manuel ait accepté plus de bonnes réponses phonologiquement correctes mais orthographiquement fausses que le codage de l’algorithme qui n’autorisait qu’une divergence de deux phonèmes (par exemple la réponse « partir » pour le mot « partirent » sera comptée comme fausse par l’algorithme et juste par le codage manuel). Cependant, il existe des divergences entre les deux langues qui pourraient être à l’origine de la différence de résultats. En effet, l’anglais et le français présentent des différences rythmiques, métriques, accentuelles, etc. Il est possible que le français soit plus robuste à l’inversion que l’anglais de part sa structure phonologique. Les deux études présentées ici appliquent les inversions sur des portions de signal de taille arbitraire, sans tenir compte de leur contenu linguistique. Or, il semblerait que le contenu des fenêtres d’inversion, en termes d’unités de traitement langagier, soit important. En français par exemple, la syllabe est une unité robuste et pertinente pour la perception de la parole. Il pourrait être intéressant d’observer le phénomène de restauration de la parole inversée en français en basant les inversions temporelles sur la structure syllabique des mots dégradés. Nous reviendrons plus en profondeur sur ces éléments de discussion dans la partie expérimentale consacrée à la parole inversée.

Si la parole inversée est une situation diamétralement opposée aux situations de perception naturelles, la parole dans la parole correspond, elle, à une situation de perception à laquelle nous sommes confrontés quotidiennement.