2.1.2. Présentation du modèle de Kosslyn et Koenig (1992)

Dans cette partie, nous décrirons brièvement chacun des sous-systèmes du modèle de la vision de haut niveau de Kosslyn et Koenig (1992), avant de nous attacher plus particulièrement aux deux sous-systèmes d’encodage des relations spatiales, le sous-système d’encodage des relations spatiales catégorielles et le sous-système d’encodage des relations spatiales coordonnées ou métriques. Notre description se réduira à la modalité visuelle du modèle.

Le premier sous-système du modèle est celui du buffer visuel (‘ « ’ ‘ visual buffer ’”), une mémoire tampon dont le rôle premier est la capture d’images rétiniennes. Il correspond à un ensemble de régions corticales rétinotopiques (c’est-à-dire organisées spatialement) qui reçoivent des inputs (informations qui arrivent au niveau d’un système) de V1. Le buffer visuel ne permet pas d’identifier les objets ni de les distinguer du fond. Comment alors reconnaissons-nous un même objet quand celui-ci apparaît à différents endroits du buffer visuel ? Sa nature spatiale préserve les relations spatiales entre les différentes localisations de l’espace, les localisations proches dans le buffer correspondant à de petites séparations entre les objets. C’est l’attention qui nous permet de comprendre comment nous identifions les objets lorsqu’ils apparaissent à différents endroits sur la rétine. Considérons l’attention spatiale visuelle comme une « fenêtre ” se déplaçant dans le buffer visuel. Ainsi, celui-ci comprendrait une fenêtre attentionnelle (‘ « ’ ‘ attention window ’”) qui a pour fonction de sélectionner une région du buffer visuel, afin de réaliser un traitement détaillé et d’identifier des objets perçus en différents emplacements. La fenêtre attentionnelle peut se déplacer et s’ajuster (s’étendre ou se rétrécir) sur la partie de l’espace dans laquelle se trouve un stimulus et inhiber ainsi les informations contenues dans les autres régions de l’espace. Ce déplacement et cet ajustement peuvent être initialisés par le sous-système de modification de l’attention liée au stimulus (‘ « ’ ‘ stimulus-based attention shifting subsystem ’”), qui pourrait être sous-tendu par le colliculus supérieur.

Comme nous l’avons vu précédemment, la capacité à identifier les objets reflète (même si seulement en partie) un traitement du système ventral. Afin de mieux comprendre son rôle, Kosslyn et Koenig (1992) ont considéré le système ventral comme étant constitué de trois sous-systèmes réalisant des fonctions particulières : le sous-système de prétraitement (‘ « ’ ‘ preprocessing subsystem ’”), le sous-système d’encodage des relations de mouvement (‘ « ’ ‘ motion relations subsystem ’”), et le sous-système d’activation de patterns (‘ « ’ ‘ pattern activation subsystem ’”). Le sous-système de prétraitement permet d’identifier des objets quelle que soit leur localisation dans le champ visuel et quelle que soit la distance à laquelle ils sont placés. Cette caractéristique est due à sa capacité d’extraire des propriétés « non accidentelles ” des objets (voir Biederman, 1987). Ce sous-système serait sous-tendu par la région occipito-temporale. Simultanément, le sous-système d’encodage des relations de mouvement organise l’information reçue de deux manières différentes, en groupant d’une part, les éléments qui se déplacent selon des caractéristiques communes (par exemple, un déplacement simultané, dans la même direction et à la même vitesse), d’autre part, les patterns de mouvement utiles pour distinguer des objets. Ce sous-système serait sous-tendu par les aires MT et MST, qui bien qu’appartenant à la voie dorsale seraient en constante interaction avec l’aire V4 appartenant, elle, à la voie ventrale. Il pourrait recevoir de l’information du sous-système de prétraitement. Le sous-système d’activation de patterns contient un stock de représentations visuelles d’objets ou de parties d’objets qui peuvent être activées de plusieurs manières : les images mentales peuvent être formées par l’activation des représentations «top-down” ou par des outputs (informations qui sortent d’un système, résultant d’un traitement cognitif) provenant des deux sous-systèmes précédents, le sous-système de prétraitement et le sous-système d’encodage des relations de mouvement. Dans ce cas, les outputs du sous-système d’activation de patterns sélectionnent le pattern d’activation stocké qui s’apparie le mieux aux inputs. Ce sous-système aurait donc des fonctions de stockage et d’appariement des patterns visuels. Il est composé du sous-système d’activation d’exemplaires ou sous-système d’activation de patterns spécifiques et du sous-système d’activation de catégories ou sous-système d’activation de patterns catégoriels. Le premier représente les différentes instances d’une catégorie, tandis que le second contient une représentation prototypique de la catégorie, non spécifique. Le sous-système d’activation d’exemplaires serait sous-tendu par le lobe temporal inférieur droit alors que le sous-système d’activation de catégories serait sous-tendu par le lobe temporal inférieur gauche.

Les informations provenant du sous-système d’activation de patterns vont transiter vers la mémoire associative (‘ « ’ ‘ associative memory ’”). Si les informations fournies par le sous-système de prétraitement et par le sous-système d’encodage des relations de mouvement sont dégradées (par exemple, des parties de l’objet manquent ou ne correspondent pas), la représentation conduisant à la reconnaissance ne sera pas activée et le stimulus ne sera pas reconnu. Ainsi, les outputs provenant du sous-système d’activation de patterns seront eux aussi endommagés et, en conséquence, ils n’aboutiront pas à la formation d’une seule représentation dans la mémoire associative. Dans ce cas-là, l’information spatiale encodée par le système dorsal jouera un rôle important et pourra permettre la reconnaissance de l’objet. Dans le cas contraire, si les outputs provenant du sous-système d’activation de patterns s’apparient correctement avec un pattern stocké au niveau de la mémoire associative, alors la représentation issue du sous-système d’activation de patterns sera unique et suffira à reconnaître l’objet ; c’est pourquoi dans ce cas précis, l’intégration des propriétés spatiales de l’objet ne contribuera pas obligatoirement à l’identification de l’objet. Le premier cas est le plus courant ; souvent, plus d’une représentation stockée en mémoire associative peut potentiellement s’apparier à l’information provenant du sous-système d’activation de patterns. La mémoire associative contient les informations permettant l’identification du stimulus (par exemple, son nom, sa fonction) quelle que soit la modalité. Elle serait sous-tendue par plusieurs régions cérébrales dont le lobe temporal supérieur. Examinons maintenant comment l’information spatiale provenant du système dorsal se combine avec l’information issue du système ventral.

La voie dorsale va encoder les propriétés spatiales d’un objet (sa position, sa taille, son orientation), grâce à trois sous-systèmes : le sous-système d’appariement spatiotopique (‘ « ’ ‘ spatiotopic mapping ’”), le sous-système d’encodage des relations spatiales catégorielles (‘ « ’ ‘ categorical spatial relations encoding subsystem ’”)et le sous-système d’encodage des relations spatiales coordonnées ou métriques (‘ « ’ ‘ coordinate spatial relations encoding subsystem ’”). Le sous-système d’appariement spatiotopique ou sous-système de transformation des coordonnées rétiniennes en coordonnées spatiales spécifie des paramètres tels que la taille, la position ou encore l’orientation exacte du stimulus dans l’espace, avec des coordonnées égocentriques ou allocentriques. Le sous-système d’appariement spatiotopique serait sous-tendu par le lobe pariétal postérieur droit. L’information provenant de ce sous-système se dirige vers le système moteur et elle est également envoyée indirectement vers la mémoire associative où elle est combinée avec l’information provenant du système ventral. De plus, cette information transite vers les deux sous-systèmes d’encodage des relations spatiales. La nature de ces deux sous-systèmes étant largement détaillée dans la partie suivante, nous les caractériserons à ce niveau brièvement. Le principal rôle du sous-système d’encodage des relations spatiales catégorielles (dites relations spatiales abstraites) est de catégoriser les positions relatives des objets et de leurs différentes parties permettant ainsi la reconnaissance d’un objet, quelle que soit sa position. Il serait sous-tendu par le lobe pariétal postérieur gauche. Le sous-système d’encodage des relations spatiales coordonnées ou métriques serait plus spécifiquement performant pour saisir un objet ou encore pour reconnaître un visage. Il serait sous-tendu par le lobe pariétal postérieur droit.

Comme nous l’avons mentionné plus haut, l’information provenant de l’encodage des parties d’un objet dans le système ventral et l’information relative à leurs relations spatiales dans le système dorsal, convergent en mémoire associative lorsque nous percevons un objet sous différentes configurations. Lorsque les propriétés de l’objet et les propriétés spatiales sont appariées, alors la représentation d’un seul objet est impliquée. Par contre, si nous encodons une séquence d’information dans le temps, le système se trouve confronté à un problème fondamental, c’est-à-dire où bouger les yeux. Trois solutions sont possibles : soit les orienter au hasard, soit les guider par le sous-système de modification de l’attention liée au stimulus, soit, enfin, les diriger selon les connaissances acquises ou les attentes. Cette dernière hypothèse (‘ « ’ ‘ top-down hypothesis” ’) conduit à considérer deux sous-systèmes supplémentaires : le sous-système de recherche de propriétés catégorielles (‘ « ’ ‘ categorical property lookup subsystem ’”) et le sous-système de recherche de propriétés coordonnées ou métriques (‘ « ’ ‘ coordinate property lookup subsystem ’”). Ces deux sous-systèmes permettent de rechercher de manière active l’information saillante en mémoire associative et d’utiliser cette information pour diriger l’attention vers une nouvelle localisation. Ils seraient sous-tendus respectivement par le cortex dorso-latéral préfrontal gauche et par le cortex dorso-latéral préfrontal droit. L’information métrique stockée peut être utilisée immédiatement pour guider l’attention, mais l’information catégorielle stockée doit être convertie par un sous-système de conversion de l’information catégorielle en information métrique (‘ « ’ ‘ categorical-to-coordinates conversion subsystem ’”). Ce sous-système serait probablement localisé au niveau du lobe frontal. Une fois que la position exacte de la partie pertinente de l’objet est identifiée, les coordonnées de cette partie sont calculées et transmises au sous-système de l’orientation de l’attention afin de déplacer et de réengager la fenêtre attentionnelle du buffer visuel vers la partie pertinente de l’objet. La mémoire associative envoie alors des informations sur le candidat le plus probable, dans le sous-système d’activation de patterns, ce qui facilite l’appariement du stimulus avec sa représentation lors du second cycle de traitement. Une alternative se pose : soit le stimulus est reconnu, soit une nouvelle hypothèse est élaborée et testée au cours d’un nouveau cycle de traitement.

En résumé, le modèle computationnel de la vision de haut niveau élaboré par Kosslyn et Koenig (1992) permet (i) de rendre compte de la façon dont nous parvenons à reconnaître et à identifier les objets qui nous entourent, (ii) de localiser les régions cérébrales les plus aptes à effectuer chacune des étapes décrites à travers des sous-systèmes de traitement, (iii) d’expliquer les déficits visuels observés suite à une lésion cérébrale quand l’un ou l’autre sous-système (ou leurs connections) est lésé et (iv) d’intégrer les études comportementales, les études neuropsychologiques et les études d’imagerie cérébrale décrites plus haut. Sa description, même brève, était nécessaire afin de replacer les sous-systèmes d’encodage des relations spatiales catégorielles et métriques dans le contexte des autres sous-systèmes de traitement participant à la reconnaissance et à l’identification d’un objet. Désormais, nous focaliserons notre attention sur ces deux derniers sous-systèmes de traitement.

Figure 1 : Modèle de l’architecture fonctionnelle de la vision de haut niveau de Kosslyn et Koening (1992) (notre traduction).
Figure 1 : Modèle de l’architecture fonctionnelle de la vision de haut niveau de Kosslyn et Koening (1992) (notre traduction).