1.3.1.1. Influence du contexte tonal et attentes sensorielles

Expliquer la perception musicale par les caractéristiques acoustiques de la musique n’est pas une idée neuve ; on peut faire remonter cette vision « parcimonieuse » de la perception musicale à Helmholtz et à sa recherche de corrélats acoustiques entre facture instrumentale et physiologie humaine d’une part, et structures musicales d’autre part (Helmholtz, 1885/1954). Plus récemment, des recherches menées par Parncutt (1988, 1989, 1994 ; Huron & Parncutt, 1993) ont proposé une explication des profils tonals de Krumhansl et Kessler (1982, cf. 1.2.1.3) sur une base purement acoustique. Leurs travaux sont basés sur le modèle de perception de la hauteur de Terhardt, Stoll, & Seewann (1982a, b). Ce modèle décrit la hauteur perçue des événements musicaux comme une combinaison de composantes spectrales et virtuelles, ces composantes étant plus ou moins saillantes. Le modèle comprend trois étapes : 1) le signal d’entrée est décomposé en composantes spectrales (i.e., les différents sons purs qui composent le spectre acoustique du signal). La saillance de ces composantes est calculée en tenant compte du masquage mutuel entre composantes, 2) pour les composantes spectrales qui peuvent correspondre à la série harmonique d’un son complexe, une composante virtuelle – correspondant à la fréquence fondamentale de la série harmonique – est calculée. La saillance de ces composantes dépend de la force de la correspondance entre la série de composantes spectrales et la série harmonique, 3) les hauteurs spectrales et virtuelles sont combinées en un spectre acoustique censé refléter l’expérience subjective de l’auditeur. Huron et Parncutt (1993) ont ajouté au modèle de Terhardt un facteur de demi-vie afin de prendre en compte le déclin en mémoire sensoriel. Huron et Parncutt ont appliqué le modèle résultant aux progressions d’accords que Krumhansl et Kessler (1982) avaient utilisé pour établir leurs profils tonals. Le modèle de Huron et Parncutt simulait correctement les données de profils tonals des auditeurs, ce qui plaide contre une explication des données de Krumhansl et Kessler par l’influence de connaissances.

L’interprétation des profils tonals en termes d’influences des connaissances des auditeurs a aussi été remise en question par Leman (2000), qui a simulé les données de Krumhansl et Kessler (1982) sur la base d’un autre modèle de hauteur. Contrairement au modèle de Terhardt et aux travaux de Parncutt et Huron, Leman utilise un modèle temporel – et non pas spectral - de la hauteur.

Figure 1.3.2. Schéma du modèle de Leman (2000). FPBas : filtre passe-bas, FPB1 à 40 : filtres passe-bande, MCC : modèle de cellule ciliée, INA : image du nerf auditif, A-C : auto-corrélation, IH : image de hauteur, ME : mémoire échoïque, IHG : image de hauteur globale, IHL : image de hauteur locale, CT : contextualité tonale. D’après Delbé, Poulin-Charronnat, & Bigand (2007).
Figure 1.3.2. Schéma du modèle de Leman (2000). FPBas : filtre passe-bas, FPB1 à 40 : filtres passe-bande, MCC : modèle de cellule ciliée, INA : image du nerf auditif, A-C : auto-corrélation, IH : image de hauteur, ME : mémoire échoïque, IHG : image de hauteur globale, IHL : image de hauteur locale, CT : contextualité tonale. D’après Delbé, Poulin-Charronnat, & Bigand (2007).

Le modèle de Leman comprend 3 étapes. La première étape utilise le modèle de hauteur de Van Immerseel et Martens (1992), qui simule le fonctionnement du système auditif périphérique en trois étapes : 1) simulation du filtrage par l’oreille externe et l’oreille moyenne, 2) simulation du filtrage de la membrane basilaire en implémentant 40 filtres passe-bande, 3) simulation de la transduction au niveau des cellules ciliées en convertissant les signaux en sortie des filtres passe-bande en patrons temporels de décharges neurales. L’ensemble des 40 patrons de décharges simule l’activité électrique de 40 fibres simulées du nerf auditif et forme l’image primaire du signal d’entrée (image de hauteur au niveau du nerf auditif).

La deuxième étape calcule une image des périodicités de hauteur. Les périodicités de hauteur (i.e., hauteur résultant du codage temporel, cf. 1.1.1.4) sont calculées pour chacune des 40 fibres du nerf auditif simulées, après filtrage entre 80 et 1250 Hz. Leman justifie la borne inférieure de ce filtre (80 Hz) par le fait que la sensation de hauteur disparaît en dessous de cette limite, et la borne supérieure (1250 Hz) par le fait qu’elle correspond à la limite de synchronisation neurale (Leman, 2000). L’analyse des périodicités est effectuée par auto-corrélation en utilisant une fenêtre glissante de 60 ms. Un mécanisme de coïncidence calcule ensuite les périodicités communes aux 40 patrons en les sommant : l’image résultante est appelée image de complétion et représente la périodicité commune aux neurones auditifs dans les fréquences 80-1250 Hz.

La troisième étape applique un effet d’écho à l’image de complétion afin de prendre en compte la mémoire à court terme. Chaque image de hauteur est calculée en intégrant la nouvelle image à un résidu de l’image précédente, atténuée par l’effet d’écho. Cet effet d’écho est soit très court (e.g., 0.1s) soit plus long (e.g., 1.5s), ce qui définit une image locale et une image globale de hauteur. L’image locale représente le percept immédiat de hauteur alors que l’image globale intègre une influence du contexte. Les images globales et locales sont corrélées pour chaque fenêtre temporelle de l’analyse de périodicité, et ces coefficients de corrélations – appelés valeurs de contextualité tonale - sont les sorties du modèle.

Leman (2000) a appliqué ce modèle aux séquences utilisées par Krumhansl & Kessler (1982) : les valeurs de contextualité tonale obtenues corrèlent avec les profils tonals obtenus par Krumhansl et Kesser. La simulation des profils tonals par le modèle de Leman plaide donc contre une explication de ces données par l’influence de connaissances tonales des auditeurs.

Les résultats de Huron et Parncutt (1993) et de Leman (2000) soulignent la nécessité de contrôler le matériel expérimental pour l’étude des influences cognitives du système tonal sur la perception. Des études expérimentales qui ont pris en compte la nécessité de ce contrôle seront présentées au 1.3.1.2.