4.2.1 - Intégration audio-visuelle

En 1999, Giard et Peronnet publiaient une étude électrophysiologique mettant en évidence des interactions neuronales audio-visuelles dans une tâche de reconnaissance d'objets bimodaux. Deux objets, A et B, étaient utilisés. Chaque objet était défini par la déformation d’un cercle en ellipse associée à un son (ellipse horizontale et son grave pour l'objet A et ellipse verticale et son aigu pour l'objet B). Les deux objets étaient présentés aléatoirement soit par l'une ou l'autre de leurs composantes unimodales seule (auditive ou visuelle), soit de façon bimodale. La tâche des sujets était d'identifier à chaque essai quel objet, A ou B, avait été présenté en pressant un bouton parmi deux. Comme on l'attendait des prédictions comportementales, les sujets étaient plus rapides pour catégoriser les objets présentés en condition bimodale que dans l'une ou l'autre des conditions unimodales. Par ailleurs, certains sujets avaient rapporté spontanément après l'expérience qu'il leur était plus facile, en condition unimodale, d'identifier les objets présentés visuellement que les objets présentés par leur composante sonore, alors que d'autres sujets (en général ceux qui avaient une expérience musicale, même limitée) estimaient l'inverse. Les sujets ont donc été séparés en deux groupes sur la base de leur temps de réaction le plus court pour identifier les objets unimodaux, et les interactions audio-visuelles ont été analysées séparément chez les sujets à dominance visuelle (TR visuel < TR auditif) et chez les sujets à dominance auditive (TR auditif < TR visuel). Ces interactions ont été estimées dans la différence entre les potentiels évoqués par les stimuli bimodaux et les somme de potentiels évoqués pour les stimuli unimodaux [AV-(A+V)].

Les résultats ont montré l'existence de plusieurs patterns d’interactions neuronales commençant très tôt, dès 40 ms après la stimulation, et affectant les cortex sensoriels spécifiques auditifs et visuels, ainsi que la région temporo-frontale droite. De façon intéressante, les effets différaient partiellement en fonction de la dominance sensorielle des sujets (Figure 26) :

les sujets à dominance auditive (mais non les sujets "visuels") présentaient des patterns d’interactions significatifs entre 40 et 140 ms dans les aires visuelles postérieures peu ou pas activées par les stimulations unimodales (colonne 1),
en revanche, les sujets "visuels" (mais non les sujets "auditifs") présentaient des interactions significatives entre 90 et 105 ms dans les régions temporales. La latence et la topographie de ces interactions étaient similaires à celle de l'onde N1 auditive et suggéraient donc une activité accrue du cortex auditif induite par l’ajout d’une information visuelle (colonne 2).

Autrement dit, aux latences précoces (< à 150 ms), les interactions dans les cortex sensoriels spécifiques étaient plus importantes dans le cortex de la modalité "la plus faible". Par ailleurs :

tous les sujets présentaient les mêmes interactions dans les régions temporo-frontales droites (entre 140 et 165 ms) (colonne 3),
et enfin, tous les sujets présentaient une diminution de l'amplitude de l'onde visuelle N1 (ou N185) interprétée comme une facilitation du traitement visuel (moins d'énergie visuelle engagée) en présence d'une composante sonore (colonne 4).

Figure 26 . Interactions audio-visuelles observées par Giard et Peronnet (1999). Les distributions de potentiel analysées séparément chez les sujets à dominance auditive (en haut) et visuelle (en bas) montrent que les interactions neuronales [AV-(A+V)] (illustrées à la latence indiquée au-dessus des cartes) sont plus importantes dans les cortex de la modalité sensorielle non-dominante. Elles sont similaires chez tous les sujets dans les aires temporo-frontales droites non spécifiques.

Ces résultats mettent donc en évidence une coactivation interactive très précoce des traitements sensoriels, déjà dans les cortex modalité-spécifiques et bien avant les étapes motrices (sans pour autant exclure une facilitation à ce niveau). Par ailleurs ils montrent que les réseaux neuronaux impliqués dans ces processus sont très flexibles puisqu'ils s'adaptent aux capacités sensorielles des sujets pour la tâche à effectuer.

L'observation d'effets aussi précoces (dès 40 ms) dans le cortex visuel était inattendue et les résultats ont été reçus avec beaucoup de circonspection. En particulier, Teder-Sälejärvi et collaborateurs (2002) ont suggéré que ces effets très précoces pourraient être dus à des ondes d'anticipation du stimulus, du type Variation Contingente Négative (vcn), présentes dans toutes les conditions expérimentales et donc non annulées dans la différence [AV-(A+V)]. Bien que cette hypothèse soit théoriquement plausible, Teder-Sälejärvi et collaborateurs n'ont pu mettre en évidence de tels effets d'anticipation qu'en utilisant des conditions expériementales très particulières par rapport à l'étude de Giard et Peronnet (1999) ⁶ .

Par ailleurs, l'observation d'effets aussi précoces dans le cortex visuel a été confirmée par d'autres auteurs : dans une tâche de simple détection de stimuli auditifs et/ou visuels, Molholm et collaborateurs (2002) ont observé des interactions dans le cortex visuel dès 45 ms après la stimulation. Des analyses complémentaires spécifiques leur ont permis d'exclure une possible influence de phénomènes d'anticipation sur ces effets précoces (Figure 27).

Figure 27 . Interactions audio-visuelles précoces observées par Molholm et al. (2002). A gauche : carte de potentiel à la latence du pic de l'effet (56 ms) et tracés des pe aux stimuli bimodaux AV (rouge), somme des réponses unimodales A+V (bleu) et différence AV-(A+V) (vert), enregistrés à partir d'une électrode occipito-pariétale (point noir). A droite : carte de potentiel obtenue à la même latence en condition visuelle seule (V). (D'après Molholm et al., 2002).

Les interactions bimodales précoces observées dans le cortex visuel pourraient s'expliquer de deux façons non exclusives :

le cortex auditif (qui reçoit des afférences dès 15-20 ms après la stimulation) pourrait activer des régions polymodales (telles que sts, ips…) qui, via des connexions en retour, moduleraient l'activité du cortex visuel,
le cortex auditif pourrait moduler directement l'activité du cortex visuel par des connexions directes telles que celles décrites par Falchier et al. (2002)et Rockland et Ojima (2001)chez le singe.

Suivant une autre approche, Schröger et Widmann (1998) ont utilisé une tâche de type oddball ⁷ au cours de laquelle les sujets devaientdétecter des changements de position de cibles auditives et/ou visuelles (protocole décrit §1.2.2). Conformément aux données de la littérature, les temps de réaction étaient plus courts lorsque les deux composantes du stimulus étaient déplacées, impliquant une interaction des traitements auditifs et visuels entre l’étape d'encodage de l’information et l’exécution de la réponse motrice. Les auteurs n’ont pas observé d’interaction avant 180 ms post-stimulus, mais ont montré des différences entre la somme des réponses unimodales et le potentiel bimodal après la Mismatch Negativity (MMN), au niveau de l’onde N2b. Ils concluent que dans leur protocole, les interactions bimodales sont générées "après l’analyse sensorielle et avant la réponse motrice", et interprètent l’absence d’interactions à un niveau précoce de traitement par le recours à des processus de mémorisation (MMN) pour détecter les cibles. Notons cependant que l’onde N2b reflète des processus non-spécifiques. Une différence entre la réponse bimodale et la somme des réponses unimodales à ce niveau pourrait "simplement" traduire la mise en jeu de processus communs aux deux modalités sensorielles (zone de convergence et non nécessairement d’intégration).

L'utilisation d'un protocole d'irmf évènementielle n'a pas permis à Calvert et collaborateurs (2001)d'observer d'effets spécifiques dans les cortex sensoriels auditif ou visuel dans le traitement de stimuli bimodaux, peut-être pour des raisons liées à la sensibilité de la technique employée (en particulier sa résolution temporelle insuffisante). Les sujets devaient percevoir passivement un damier qui s'inversait périodiquement toutes les 125 ms et/ou un stimulus sonore (bruit blanc de 100 ms) répété avec un ISI de 25 ms. Grâce à des périodes on/off différentes pour les stimuli auditifs (39s) et visuels (30s), le paradigme (Figure 28) mettait en jeu 4 conditions de stimulations se succédant de façon pseudo-aléatoire : deux conditions unimodales où seule l'information auditive ou visuelle était disponible, une condition bimodale où les deux informations étaient présentées simultanément et une condition contrôle durant laquelle aucun stimulus n'était présenté.

Figure 28 . Paradigme expérimental utilisé par Calvert et al. (2001). Le stimulus visuel (bleu) est présenté toutes les 30s pendant 30s alors que le stimulus auditif est présenté toutes les 39s pendant 39s. Ce paradigme induit des périodes pseudo-aléatoires de stimulation unimodale (A ou V), bimodale (AV) (indiquées par les barres grises) et contrôle (ni A, ni V). (D'après Calvert et al., 2001).

Par ailleurs, les sujets étaient soumis à deux sessions expérimentales. Dans la première, la condition bimodale était synchrone (le début du son était synchronisé sur l'inversion du damier) et dans la seconde, elle était asynchrone (le début du son n'était pas synchronisé sur l'inversion du damier). Pour déterminer les sites d'intégration, les auteurs ont utilisé les critères d'augmentation/dépression de la réponse définis au niveau du neurone unitaire chez l'animal (voir chapitre 2). Autrement dit, seules les régions présentant une augmentation d'activité (response enhancement) dans la session synchrone et une diminution (response depression) dans la session asynchrone ont été retenus comme sites d'intégration ⁸ . Les résultats ont mis en évidence un réseau mettant en jeu principalement le colliculus supérieuret le sillon temporal supérieur gauche, ainsi que l'insula/claustrum bilatéralement, le sillon intra-pariétal droit et des régions frontales (Figure 29). Ces données confirment aussi les résultats d'une étude tep qui suggèrent un rôle important de l'insula dans la détection de la synchronie temporelle d'évènements bimodaux (Bushara et al., 2001).

Figure 29 . Réseau d'aires cérébrales répondant aux critères d'intégration (augmentation et dépression de la réponse pour les stimuli respectivement synchrones et asynchrones). Ce réseau inclut le cs, l'insula, sts, ips et des régions frontales. (D'après Calvert et al., 2001).

Notes

6.

Les différences entre les observations de Teder-Sälejärvi et al. (2002) et celle de Giard et Peronnet (1999) peuvent s'expliquer par les différences de protocoles. Dans l'étude de Teder-Sälejärvi et al., les sujets devaient réaliser une tâche de discrimination rapide et difficile, entre des stimuli ayant un temps de présentation très court (33 ms) et se succédant rapidement (intervalle interstimulus (ISI) de 600 à 800 ms). Dans ce cas, les performances des sujets peuvent être largement augmentées par des processus d'anticipation, visibles également dans la morphologie de pe (figure 3 dansTeder-Sälejärvi et al., 2002). En revanche, dans l'étude de Giard et Peronnet, les stimuli étaient présentés pendant 240 ms avec un ISI beaucoup plus "confortable" (TR + 1350 ms), limitant de ce fait la nécessité de recouvrir à des processus d'anticipation comme en témoignent les pe (figure 4 dans Giard et Peronnet, 1999).

7.

Une tâche de type oddball consiste à présenter, au cours d’une succession de stimuli identiques standards, des stimuli rares (généralement 5 à 15 %) déviant sur un ou plusieurs trait(s) physique(s) (par exemple dans un paradigme visuel : taille, couleur, position dans l’espace...). Ces paradigmes dans la modalité auditive permettent d’enregistrer la Mismatch Negativity (MMN) une onde de potentiels évoqués obtenue dans la différence entre les pe aux stimuli standards et les pe aux stimuli déviants. La MMN est maximum entre 100 et 200 ms post-stimulus sur les régions fronto-centrales et semble en grande partie générée dans le cortex supratemporal auditif [Näätänen, R. (1992). Attention and Brain Function. Hillsdale, NJ.]. Elle peut être observée en l’absence d’attention et reflète donc un traitement automatique de discrimination auditive (détection de la déviance) au sein du cortex auditif.

8.

Nous discuterons dans le chapitre 11 de la validité de ce double critère.