Travaux récents

La plupart des travaux s’intéressant à la question de la compréhension de la parole dans la parole, ont étudié le phénomène cocktail party en se focalisant d’emblée sur les indices de séparation spatiale des flux concurrents (Ericsson & McKinley, 1997 ; Drullman & Bronkorst, 2000). Ces deux études ont utilisé une condition à trois voix ou plus provenant de la même source (écoute diotique) comme condition contrôle. D’autres utilisent l’écoute diotique ou monaurale comme condition contrôle dans une tâche d’écoute dichotique (Carhart, Tillman & Greetis, 1969). Peu d’études antérieures se sont intéressées spécifiquement à la ségrégation de flux de parole lorsque la voix cible et les voix concurrentes proviennent d’une même source. Les premiers travaux (Miller, 1947) ont étudié les effets de la variation du Rapport Signal sur Bruit (RS/B) et du nombre de locuteurs concurrents sur la perception d’un stimulus de parole multilocuteurs diotique (le même signal aux deux oreilles). Les résultats montrent que l’intelligibilité du locuteur cible diminue lorsque des locuteurs compétiteurs interviennent et lorsque le niveau sonore de la cible est réduit par rapport au niveau sonore des bruits de parole concurrents.

En 2001, une étude de Brungart s’est penchée sur la perception diotique de deux signaux de parole concurrents et a montré qu’une différence dans les caractéristiques vocales des voix concurrentes, comme par exemple une différence de genre ou de niveau sonore entre les deux locuteurs, peut améliorer l’intelligibilité de la voix cible. Cette condition à deux voix concurrentes est résolue grâce aux indices de surface. Les indices de surface sont nombreux : F0 (fréquence fondamentale), timbre des voix, style discursif, etc. Les données de cette étude à deux locuteurs montrent un fort effet de masquage informationnel : les locuteurs sont capables d’entendre les deux messages concurrents, mais rencontrent quelques difficultés à différencier le contenu de la phrase cible de celui de la phrase concurrente (Brungart, 2001a, 2001b).

L’étude de référence pour nos travaux est celle de Brungart, et al. (2001). Ils ont étudié les effets du nombre de locuteurs, du genre des locuteurs, et du RS/B dans des cocktails party à une voix cible et deux ou trois voix concurrentes. Les auteurs ont utilisé pour leur matériel cible et concurrent les phrases du corpus de Bolia, Nelson, Ericson & Simpson (2000) qui comporte des phrases de la forme « Ready (call sign) go to (color) (number) now ». Avec huit indicatifs possible (exemples : Arrow, Baron, Charlie…) ; quatre couleurs (blue, green, red, white) et huit chiffres (de 1 à 8), le corpus propose toutes les combinaisons, soit 256 phrases possibles de la forme « Ready Charlie go to green seven now ». Chaque phrase est disponible en huit voix différentes (quatre voix d’hommes et quatre voix de femmes). Dans cette étude, chaque stimulus correspondait à trois ou quatre phrases du corpus diffusées simultanément. La phrase cible commençait toujours par l’indicatif « Baron » et les deux ou trois phrases « masquantes » par un autre indicatif sélectionné aléatoirement. Dans chaque stimulus, les phrases « masquantes » et la phrase cible contenaient obligatoirement des couleurs et des nombres différents les uns des autres. Le niveau sonore (RMS power) des phrases de bruit de fond a été fixé entre 60 et 70 dB SPL et le niveau sonore de la phrase cible a été ajusté de façon à obtenir 10 Ratios Cible/Masques (RCM) ⁴ allant de -12 dB à +15 dB par pas de 3 dB. Les stimuli étaient présentés diotiquement au casque. Les participants étaient placés devant un écran comportant toutes les combinaisons couleur/nombre possibles et devaient cliquer sur celle correspondant à la phrase du stimulus commençant par « Ready Baron ».

Les résultats montrent qu’à partir de trois voix en compétition, une diminution linéaire des performances est observée lorsque le RCM diminue. Les auteurs observent un fort effet de genre, les performances sont moins bonnes lorsque le locuteur cible et les locuteurs concurrents sont de même genre, particulièrement pour les RCM positifs (niveau sonore de la cible plus élevé que le niveau sonore des compétiteurs). Cet effet de genre tend à disparaître lorsque le nombre de voix dans le stimulus augmente. Pour résoudre le problème de l’effet cocktail party, les indices de surface n’interviennent plus à partir de trois voix de genre identique, ou de quatre voix de genre mixte. Par ailleurs, les performances augmentent pour un ratio positif donné lorsque le nombre de voix augmente. Lorsque le ratio est négatif, c’est l’inverse, les performances sont meilleures pour la condition à deux locuteurs que celles à trois ou quatre locuteurs. En résumé ; l’ensemble des études de Brungart montre que lorsque le mélange de parole est composé d’un faible nombre de locuteurs (deux à quatre), les auditeurs s’appuient sur des indices propres aux voix, comme le genre ou l’intensité sonore de chaque voix, pour compenser les effets de masquages.

Il faut remarquer que l’étude de Brungart, et al. (2001) se prête tout particulièrement à un effet de masquage informationnel du fait de la ressemblance entre phrases cibles et phrases concurrentes et de la redondance des items utilisés. L’analyse des erreurs a d’ailleurs montré qu’il était très rare de trouver des réponses qui n’étaient pas réellement présentes dans les stimuli. Ce point constitue une limite de l’étude de Brungart, et al. (2001) : les participants avaient des connaissances sur le contenu des phrases « masquantes » et des phrases cibles, du fait du nombre réduit d’items de chaque catégorie (huit indicatifs, quatre couleurs, huit chiffres possibles). D’autre part, la tâche correspondait à une tâche de compréhension de parole dans la parole, cependant elle était particulièrement facile puisque il suffisait d’identifier les trois éléments principaux (trouver la voix prononçant «Baron », la couleur et le chiffre associé) pour choisir la réponse correcte. De plus, le nombre réduit d’items possibles dans chaque catégorie permettait de deviner le mot prononcé. Par exemple, pour les quatre couleurs utilisées (blue, green, red, white) le fait de percevoir uniquement la voyelle cible suffisait à identifier correctement la couleur. Ces choix méthodologiques, très pratiques à contrôler, ne pouvaient conduire au recueil de performances d’intelligibilité dans le bruit représentatives d’une situation de perception réelle.

Nos travaux de recherche se sont largement inspirés de l’étude de Brungart, et al. (2001), cependant, nous avons mis en place une tâche de transcription (au lieu de la tâche non verbale demandée par Brungart, et al., 2001), et nous avons respecté un certain nombre de critères psycholinguistiques pour la création du matériel expérimental. Nous avons enregistré un corpus de parole naturelle et variée qui nous a servi de base pour créer les bruits paroliers. Nous avons également testé un nombre plus important de voix concurrentes pour étudier les effets de masquage informationnel et énergétique comme nous le verrons au Chapitre III.

Notes

Il est à noter que ce ratio entre le niveau sonore de la phrase cible et celui d’une des phrases « masquantes » est différent du rapport Signal/Bruit que nous utiliserons pour nos expériences et qui correspond au rapport entre le niveau sonore de la phrase cible et le niveau sonore global du signal.