3.3.1 Composantes précoces associées au traitement visuel

Les potentiels évoqués visuels ’classiques’ sont caractérisés par des composantes électrophysiologiques relativement précoces se chevauchant parfois dans les ondes observées : C1 (50-80 ms), P1 (75-110 ms), N1 (120-180 ms) et P2 (200-250 ms). Ces réponses visuelles étant sensibles à la taille, la luminosité, la couleur, la fréquence spatiale, l’orientation et/ou le contour des stimuli, elles ont été associées à des processus d’analyse sensorielle reposant sur les caractéristiques physiques des stimuli (Harter et Previc, 1978; Harter et coll., 1979; Harter et Guido, 1980; Wastell et Kleinman, 1980; Harter et coll., 1982; Buchner et coll., 1997; Schendan et coll., 1998; pour revue, Hillyard et Kutas, 1983; Harter et Aine, 1984; Clark et coll., 1995).

L’objet de ce paragraphe ne concernera toutefois pas ces composantes sensorielles ’classiques’ associées à des traitements perceptuels de bas niveau, mais des composantes précoces, avec des latences inférieures à 150 ms après le début de la stimulation, pouvant être associées à des processus de traitement visuel hautement sophistiqués. Comme nous l’avons évoqué au cours du chapitre introductif sur la perception visuelle des objets complexes, de nombreuses études ont mis en évidence chez le singe l’existence de neurones, dans le lobe temporal du cortex, capables de répondre sélectivement à des stimuli complexes, tels que des visages, avec des latences de seulement 100 ms (parfois moins) après la présentation du stimulus. Ces observations suggèrent l’existence de mécanismes de catégorisation visuelle très rapides et hautement performants, basés sur des traitements essentiellement de type “feed-forward” et largement indépendants des processus attentionnels.

Cette rapidité d’analyse a également pu être mise en évidence chez l’Homme pour différentes catégories de stimuli visuels complexes, incluant des scènes naturelles, des visages et des mots. La première étude ayant montré une telle efficacité de traitement du système visuel a été réalisée par Thorpe et collaborateurs (1996). Au cours d’une tâche de catégorisation visuelle sur des photographies de scènes naturelles complexes présentées pendant seulement 20 ms, il a été montré que les sujets étaient capables de détecter la présence d’un animal avec un temps de réaction comportemental parfois inférieur à 250 ms, même si l’image n’avait jamais été vue auparavant. Les mesures comportementales ne permettent toutefois pas de dissocier le temps de traitement visuel de l’image du temps nécessaire à l’exécution de la réponse. Les enregistrements électrophysiologiques, en revanche, permettent d’obtenir des informations sur le décours temporel des processus d’analyse visuelle, indépendamment des processus de préparation à la réponse motrice. Les réponses aux images ne contenant pas d’animal (essais ’no-go’) ont ainsi pu être dissociées, dès 150 ms après le début de la stimulation, de celles en contenant.

Ces observations ont été répliquées dans des études ultérieures (Fabre-Thorpe et coll., 2001; VanRullen et Thorpe, 2001; pour revue, Thorpe, 1995). Des effets différentiels à des latences similaires, c’est-à-dire autour de 150 ms, ont également été mis en évidence pour d’autres types de stimuli visuels complexes. Une composante positive bilatérale (P150), largement distribuée sur le scalp et maximale au vertex a en effet été sélectivement enregistrée pour des stimuli langagiers (mots et pseudo-mots) et non-langagiers (visages), comparativement à d’autres catégories d’objets (Schendan et coll., 1998; Skrandies, 1998).

Des effets de catégorisation visuelle rapide à des latences encore plus précoces ont pu être observés chez l’Homme pour des stimuli faciaux dans des tâches de reconnaissance ou de jugement d’expression. Par exemple, des réponses différentielles, maximales sur les électrodes centro-pariétales, ont été enregistrées dès 50 ms (50-90 ms) entre les catégories de visages connus et inconnus (Seeck et coll., 1997). Cependant, bien que des effets similaires aient été observés par George et collaborateurs (1997), ils n’ont pas été associés, comme dans l’étude précédente, à des processus rapides de reconnaissance faciale, mais à des phénomènes de répétition (Debruille et coll., 1998). Enfin, une étude récente a montré l’existence de réponses électrophysiologiques différentes, dès 80-116 ms sur l’hémiscalp droit, et 104-160 ms sur l’hémiscalp gauche, pour des visages émotionnellement agréables versus désagréables (Pizzagalli et coll., 1999).

Ces composantes électrophysiologiques recueillies sur le scalp autour de 150 ms, et même parfois bien avant, confortent l’existence de mécanismes de catégorisation visuelle très rapides chez l’Homme. Ces observations n’ont toutefois été mises en évidence que pour des classes de stimuli présentant un certain avantage “éthologique” associé à une fréquence élevée d’apparition des stimuli, ou bénéficiant d’un apprentissage préalable (Schendan et coll., 1998).

Si l’on suppose qu’un des rôles du système visuel est d’extraire les quelques éléments essentiels qui résument une image et qui permettront son identification ultérieure, il est possible d’envisager que ces composantes très précoces reflètent des mécanismes de détection perceptuelle hautement sophistiqués permettant une catégorisation rapide des stimuli via une extraction globale des différences les plus saillantes. Ces mécanismes reposeraient sur l’existence de voies visuelles extrastriées parallèles à la voie géniculo-striée et/ou l’existence d’un mode de transmission asynchrone des informations impliquant qu’à chaque relais l’information visuelle nécessaire et suffisante pour effectuer de telles catégorisations soit véhiculée par les neurones qui déchargent les plus vite (Thorpe, 1995; VanRullen et Thorpe, 2001).