Les différents effets de masquage

Depuis la première description de l’effet « cocktail party » par Cherry en 1953, un très grand nombre d’études ont vu le jour, la plupart du temps centrées sur les caractéristiques psychoacoustiques de l’analyse de scènes auditives. Les travaux de Brungart, et al. (2001), et Brungart, et al. (2006) ont décrit les effets de masquage informationnel et de masquage énergétique dans le cas particulier de la perception de la parole dans la parole. Le masquage énergétique est présent lorsque les signaux de parole concurrents se recouvrent en temps et en fréquence. Il empêche l’auditeur de détecter certaines informations acoustiques du signal de parole cible. Le masquage informationnel apparaît lorsque les signaux de parole concurrents sont similaires et que l’auditeur a des difficultés à séparer les éléments acoustiques du signal cible de ceux du signal concurrent (Brungart & Simpson, 2002). L’expérience 3 nous a permis de montrer la présence de ces deux types de masques lors de la perception de la parole en situation cocktail party. Le masquage énergétique est, certes, présent, cependant, il ne serait responsable que d’une partie limitée de l’effet de masquage total (Brungart, et al., 2006). Le masquage informationnel jouerait donc un rôle non négligeable dans la gêne occasionnée par le signal de parole concurrent sur l’intelligibilité du signal cible. À l’appui de cette hypothèse, l’étude de Van Engen & Bradlow (2007) démontre que la perturbation occasionnée par un bruit parolier concurrent est effectivement due à son contenu linguistique plutôt qu’aux caractéristiques acoustiques de ce bruit de fond. Comme dans les études de Rhebergen, Versfeld & Dreschler (2005) et Garcia Lecumberri & Cook (2006) ; Van Engen & Bradlow (2007) ont comparé les performances de reconnaissance de parole dans le bruit avec des bruits paroliers interférents de la même langue que le signal cible ou d’une langue différente. Les résultats montraient que dans un bruit concurrent à deux locuteurs, les auditeurs anglais étaient plus gênés par un bruit de parole concurrent en anglais qu’un bruit de parole concurrent en mandarin. Ces résultats démontrent l’interférence linguistique occasionnée par le masquage informationnel.

Nous avons testé les différents types de masquages dans notre expérience 3 qui utilisait un échantillon de bruits de fond de différentes natures. Nous avons comparé les scores de restitution de mots cibles en fonction du type de bruit de fond qui pouvait être un bruit cocktail party de parole naturelle à 4, 6 ou 8 voix (contenant des informations lexicales), un bruit cocktail party de parole inversée à 4, 6 ou 8 voix (contenant des informations phonétiques partielles), ou un bruit à large bande spectrale (ne contenant aucune information phonétique). Les résultats ont montré que les bruits de fond contenant de l’information linguistique étaient plus masquant que le bruit large bande. Ce résultat confirme les travaux de Simpson & Cook (2005) qui avaient montré que le bruit cocktail party constitue un masque plus puissant qu’un bruit au spectre identique à celui de la parole. Dans cette étude, les auteurs mesuraient des scores d’identification de consonnes (dans des syllabes de type VCV), dégradées par des bruits paroliers à N-locuteurs et dans des bruits modulés en amplitude (à partir des mêmes bruits paroliers) à N-locuteurs. Les auteurs ont enregistré les scores de restitution de consonnes pour des valeurs de N comprises entre 1 et 512. Les résultats montrent que l’effet de masquage des bruits paroliers naturels est plus efficace que l’effet de masquage des bruits modulés en amplitude. Pour les bruits naturels, les performances chutent linéairement jusqu’à un score minimum obtenu pour la condition 8 voix, puis une légère amélioration des performances est observée entre 8 et 512 voix. Au contraire, l’effet de masquage du bruit modulé en amplitude est moins efficace dès la condition 2 voix. Les performances diminuent avec l’augmentation du nombre de voix mais de façon graduelle. Ces résultats confirment ceux de Bronkhorst & Plomp (1992) qui avaient testé les mêmes effets avec des bruits modulés en amplitude réalisés à partir de bruits paroliers contenant de 1 à 6 voix ainsi que les travaux de Sperry, Wiley & Chial, (1997) qui avaient montré qu’un bruit contenant des informations linguistiques perturbe plus les auditeurs qu’un bruit sans contenu linguistique.

Dans notre étude, l’interférence linguistique produite par les cocktails party naturels et inversés provoquait une réduction des performances de restitution de 10 % en moyenne par rapport au bruit de fond dépourvu d’information linguistique. Hawley, et al. (2000) avaient déjà utilisé de la parole inversée dans une étude sur la compréhension de la parole en situation cocktail party mais il s’agissait d’une étude en perception binaurale visant à étudier les effets de la localisation spatiale des voix concurrentes. Les résultats n’avaient pas montré de différence significative entre parole naturelle et parole inversée. Dans notre étude, les performances obtenues pour le cocktail party inversé étaient plus élevées que celles obtenues pour le cocktail party naturel. Alors que pour les cocktails party inversés les performances de restitution diminuaient linéairement avec l’augmentation du nombre de voix, ce n’était pas le cas pour les cocktails party naturels. Nous avons observé notamment une différence significative des performances entre le cocktail à 4 voix naturel et le cocktail à 4 voix inversé. Cette différence de performances pourrait provenir du contenu informationnel du cocktail party naturel. En effet, les informations lexicales du bruit de fond étaient parfois audibles comme le démontrait le résultat de l’analyse des erreurs produites par les participants. Plus de la moitié des erreurs observées pour la condition de cocktail party naturel à 4 voix étaient des mots issus du bruit cocktail party concurrent. Ce résultat indique que les mots du bruit de fond ont pu être activés lors du traitement de la cible et entrer en compétition avec les mots cibles puisqu’ils ont parfois été donnés comme réponse. Cette expérience suggère la présence de compétitions lexicales entre les mots du bruit de fond et le mot cible, puisqu’il arrivait parfois qu’il y ait confusion. En revanche, les mots du cocktail party inversé n’ont jamais été activés car l’inversion portait sur la durée totale du signal, ce qui dégradait entièrement les informations sémantiques (tout comme dans l’étude de Mehler, et al., 1988, qui avait utilisé la parole inversée comme condition contrôle).

Nos résultats ont montré également que le cocktail party à 4 voix occasionnait un effet de masquage informationnel plus important que le cocktail party à 6 voix. C’est dans cette condition à 4 voix d’ailleurs, que les mots du cocktail étaient restitués le plus souvent à la place des mots cibles. Dans la condition à 6 locuteurs, la quantité de bruit due au nombre de voix augmentait la saturation spectrale du bruit de fond rendant de ce fait inaccessibles certaines informations lexicales. Par conséquent il se pourrait que l’effet de masque informationnel ait été moins important, les compétitions lexicales moins nombreuses et les performances de restitutions légèrement plus élevées (8 % de différence pour la condition à 4 voix). Nous allons à présent discuter des effets de fréquence des mots du bruit de fond observés dans les expériences 4a, b et 5a, b.