1.1. Perception et imagerie visuelles

1.1.1. Les principaux modèles d’imagerie visuelle

La plupart des modèles relatifs à l’imagerie mentale sont essentiellement consacrés à l’imagerie visuelle, et sont appliqués à des situations ou des tâches pour lesquelles l’activité d’imagerie fait suite à une exploration visuelle du stimulus. Considérant le cas des images mentales visuelles, Mellet (2002) explique : « Les images mentales visuelles sont un type de représentation utilisé lorsqu’on s’appuie sur une information visuelle stockée en mémoire plutôt que sur une information fournie directement par la perception. […] il paraît raisonnable de penser que celle-ci se construit à partir d’une expérience perceptive visuelle ; en ce sens elle pourrait être assimilée à un souvenir visuel. Mais il ne s’agit là que d’un aspect de l’image mentale » (pp. 419-420). Roland et Gulyas (1994) définissent l’imagerie visuelle comme la représentation d’expériences visuelles générées en l’absence d’entrée (input) rétinienne. Mellet (2002) précise néanmoins que l’imagerie mentale s’étend à d’autres formes de représentations, non visuelles. Dans le cadre de cette recherche, nous envisageons également une définition large du concept de représentation, qui ne se réduit pas aux images visuelles, mais aux différentes formes d’évocation (interne) d’informations stockées en mémoire (MDT ou MLT) en dehors de toute perception.

Les modèles relatifs à l’activité d’imagerie rendent compte des opérations permettant l’émergence de représentations visuelles à partir de la perception ou de l’évocation d’objets. Partant du principe que les traits que le système visuel extrait initialement des objets sont spatiaux et formés d’arêtes orientées, Biederman (1987) et Hummel et Biederman (1992) ont développé une théorie de la reconnaissance visuelle d’objets, selon laquelle les traits de bas niveau, ou primitives, sont basés sur des arêtes spatialement arrangées, de manière à produire un trait (feature) constitutif, c’est-à-dire un volume régulier appelé « géon ». Un nombre restreint de géons, disposés de façon adéquate dans l’espace et ayant une taille appropriée, serait suffisant pour recréer n’importe quel objet familier. Dès lors, le processus de reconnaissance de pattern consiste notamment à extraire les arêtes, déterminer les géons à partir de leur localisation et leur agencement spatial, combiner ces géons en un objet, et comparer cet objet aux représentations stockées en MLT contenant les diverses catégories d’objets.

Kosslyn (1980) a proposé un autre modèle explicatif du fonctionnement de l’activité d’imagerie visuelle, dans lequel il postule la présence d’une mémoire visuelle à long terme, contenant les informations sur l’apparence des objets. Une seconde structure, le « buffer visuel », dans laquelle sont stockées les propriétés invariantes du stimulus, permet l’émergence des images mentales visuelles. Kaski (2002) explique que notre expérience consciente d’une image consiste en une activation de patterns dans le buffer visuel. Bien que, comme le cache visuel issu du modèle de la MDT de Logie (1995), le buffer visuel permette la maintien temporaire d’informations visuo-spatiales, ces deux structures ne sont néanmoins pas équivalentes. Alors que le cache visuel constitue une simple réserve d’informations visuo-spatiales alimentant le processeur exécutif central, le buffer visuel est le siège de la manipulation consciente d’une partie de l’information visuo-spatiale contenue dans le cache visuel (il remplit donc les même fonctions que l’administrateur central). Bideaud et Courbois (1998) expliquent que « chez Kosslyn (1980, 1994), le buffer visuel, qui sert à la fois de système de traitement de l’input sensoriel et de « mémoire à court terme », dirige les informations visuo-spatiales vers les structures de mémoire à long terme (mémoire visuelle, mémoire associative). Chez Logie, l’information visuelle passe nécessairement en mémoire à long terme avant d’être maintenue ou travaillée dans la mémoire de travail visuo-spatiale » (p. 166). Dans le modèle de Logie (1995), « les processus de perception ont directement accès à la base des connaissances stockées concernant les stimuli perçus. C’est seulement après que cette connaissance stockée a été activée que l’information devient disponible pour la MDT » (Pearson & Logie, 1998).

Par la suite, Kosslyn (1994) remanie ce premier modèle et en conçoit un second comportant sept sous-systèmes indépendants mais interconnectés. Parmi ceux-ci, on retrouve le buffer visuel, qui traite les informations visuelles en provenance de la rétine tout en servant de support aux représentations visuelles. Le buffer visuel pouvant contenir plus d’informations qu’il n’est possible d’en traiter à un moment donné, une deuxième structure, mobile, nommée « fenêtre attentionnelle », sélectionne la région de ce dernier (par un mécanisme d’inhibition des autres régions du buffer) qui fera l’objet de traitements ultérieurs. Le système d’encodage des propriétés visuelles de l’objet (système ventral) traite les caractéristiques de forme, de couleur et de texture, alors que le système d’encodage des propriétés spatiales (système dorsal) est sensible aux variations de localisation, d’orientation et de taille. La mémoire associative constitue le lieu de convergence des données provenant des systèmes ventral et dorsal, qui sont reliés l’un à l’autre et associés à d’autres informations concernant l’objet (nom, catégorie, etc.). Une sixième structure intervient dans la sélection des représentations en mémoire associative qui font l’objet d’un test d’hypothèse lorsque plusieurs représentations sont candidates dans le traitement des propriétés visuo-spatiales d’un stimulus : il s’agit du système de recherche d’information. Enfin, le système de déplacement de l’attention commande les mouvements de la fenêtre d’attention qui permet la recherche d’information concernant un stimulus. Une fois la fenêtre placée, son contenu est ensuite traité.

Les informations alors stockées sont manipulées et subissent différents traitements. Un processus de « génération » sous-tend la création de l’image dans le buffer visuel à partir des informations stockées dans la mémoire visuelle à long terme. Un processus d’ « inspection » opère l’exploration des patterns pour récupérer les informations telles que la forme et la configuration spatiale. D’autres processus transforment l’image (rotation, translation, réduction de la taille…). Gallina (1998) a montré, chez des enfants entre 5 et 11 ans, que les processus de génération, de maintien et d’inspection de l’image constituent trois modules d’imagerie relativement indépendants.

Le modèle de Tye (1984, 1988) concernant l’imagerie mentale se centre autour de l’idée que les images mentales visuelles sont encodées dans des régions du cortex visuel possédant une organisation topographique. Comme Kosslyn (1980), cet auteur postule que les images mentales sont générées plutôt que seulement récupérées, et peuvent donc être modifiées en manipulant les informations stockées en mémoire. Pour les images visuelles, le buffer visuel est activé par des processus de génération agissant sur les informations relatives à l’apparence physique et à la structure spatiale des objets, qui sont stockées en MLT. Dans le cas de la perception visuelle, le buffer visuel est activé par des processus opérant sur les informations parvenant à la rétine. La théorie de Tye (1984, 1988) est donc conforme à celle de Kosslyn (1980, 1994).

En outre, si la plupart des modèles d’imagerie mentale se focalisent sur la composante perceptive, la théorie piagétienne prend également en compte le rôle important de la motricité dans la genèse et le développement des images mentales. Selon Piaget et Inhelder (1966), l’image mentale ne peut pas être considérée comme une simple copie du réel basée sur des mécanismes perceptifs, mais procède d’une reconstruction active qui suppose l’intervention de la motricité. Bideaud et Courbois (1998) relatent deux arguments en faveur de cette hypothèse : « Le premier fait référence aux corrélats électrophysiologiques qui accompagnent l’imagerie motrice. Des électromyogrammes permettent en effet de déceler une légère activité musculaire périphérique au niveau du bras lorsque le sujet s’imagine bouger celui-ci. Le second argument fait référence à la similitude de la motricité oculaire observée lorsque le sujet explore visuellement un objet ou lorsqu’il s’en construit une image mentale » (p. 167). Ainsi, tout comme la perception, la motricité participe donc elle aussi à l’activité d’imagerie. Aussi, en dépit de l’existence de différences entre les images mentales visuelles et motrices, qui se distinguent par la modalité mise en œuvre (Lautrey, 1989) et par la possibilité d’expliciter verbalement leur contenu (Annett, 1995 ; Jeannerod, 1994), ces deux types de représentations présentent des analogies fonctionnelles (Jeannerod, 1994, 1995) et partagent des ressources communes (Annett, 1995 ; Quinn, 1994), les interactions (effet facilitateur ou interférence) dont elles peuvent faire l’objet témoignant de ces similitudes.