La première expérience d’image de classification dans le domaine de la vision a été réalisé par Ahumada (1996). L’un des objectifs était de déterminer si la méthode utilisée dans le domaine de l’audition pouvait être appliquée dans le domaine visuel. Ahumada (1996) a conduit une expérience portant sur la tâche classique de l’acuité de Vernier. La tâche était de déterminer si deux barres sont alignées ou légèrement décalées l’une par rapport l’autre. Les résultats indiquaient que la réponse de l’observateur se fondait sur la position relative des deux barres et non pas de la position absolue de la barre dont la position variait. Les résultats de cette expérience sont présentés à la Figure 34. Des résultats similaires étaient trouvés lorsque les deux barres ne se touchaient plus, mais étaient séparées par une distance de 10 min (Beard & Ahumada, 1998).
Eckstein, Shimozaki et Abbey (2002) ont appliqué la technique d’image de classification pour déterminer comment l’attention affecte le traitement de l’information dans le paradigme d’attention indicée de Posner. Eckstein et al. (2002) ont comparé le prototype utilisé par l’observateur humain pour des positions indicées et non indicées. La procédure était la suivante : un carré était tout d’abord présenté sur l’une des deux positions possibles pour les cibles ; les stimuli apparaissaient juste après et étaient constitués de deux blobs gaussiens, puis un bruit était présenté et le contraste de l’un des deux blobs gaussiens augmentait. L’observateur indiquaient si oui ou non cette augmentation était présente. Les résultats ne montraient pas de différence dans le prototype utilisé par les observateurs pour les deux positions. Eckstein et al. (2002) ont montré une différence dans la taille des images de classification : les images était beaucoup plus grande pour une position indicée que non indicée. En d’autres termes, l’attention visuelle change le poids de l’information utilisée par l’observateur, mais ne change pas la qualité du traitement de l’information.
Abbey, Ekstein et Bochud (1999) ont étendu la technique d’Ahumada (1996) à une tâche de détection d’un patch gaussien. Les images de classification obtenues dans cette tâche montraient une zone claire centrale à l’emplacement du signal, mais également un faible pourtour antagoniste. Abbey et Eckstein (2000) ont répliqué cette expérience, mais cette fois, trois bruits différents étaient utilisés : un bruit blanc, un bruit passe-bas et un bruit passe-haut. Les images de classifications étaient identiques à l’expérience de Abbey et al. (1999), mais la zone claire centrale apparaît de façon plus petite dans le cas d’un bruit passe-bas.
Gold, Murray, Bennett et Sekuler (2000) ont chercher déterminer si les contours illusoires étaient impliqués dans une tâche perceptive. Le carré de Kanisza était utilisé, et les observateurs effectuaient une tâche de discrimination entre deux conditions où les contours illusoires sont concaves ou convexes. Deux conditions contrôles étaient réalisées : l’une avec des contours réels et l’autre avec des « pac-men » retournés dans laquelle les contours illusoires n’apparaissaient plus. Les images de classification montraient que les observateurs utilisaient les contours verticaux pour réaliser la tâche, aussi bien pour des contours réels qu’illusoires. Une tâche identique a été effectuée par un observateur idéal qui utilisait uniquement l’information centrée sur les bords des « pac-men » pour répondre.
Les expériences présentées dans les paragraphes précédents utilisaient un bruit composé de petits carrés dont la luminance varient aléatoirement. Toutefois, certaines études (Levi & Klein, 2002 ; Neri, Parker & Blakemore, 1999) ont montré que la technique de l’image de classification était également applicable pour d’autres formes de variable aléatoire. L’image de classification est alors obtenue de la même façon que le calcul proposé par Ahumada (1996). L’étendue de la technique de l’image de classification se retrouve dans la littérature sous le nom de corrélation inverse (Levi & Klein, 2002 ; Neri & Heeger, 2002 ; Neri, Parker & Blakemore, 1999). Le principe générale est toujours le même puisqu’il s’agit d’obtenir ce que l’observateur utilise du signal, mais ici la technique est étendue à d’autres possibilités de perturbation aléatoire.
Neri, Parker et Blackemore (1999) ont étudié les mécanismes impliqués dans la disparité binoculaire 18 . Dans l’expérience de Neri et al. (1999), les stimuli étaient constitués soit de points dont la position était aléatoire (noir et blanc) sur un fond gris avec une disparité binoculaire nulle, soit d’un carré composé également de points aléatoires qui apparaissait comme étant plus en avant par rapport au fond. Les observateurs détectaient la présence ou non de ce signal. Les images montraient un profil de réponse identique à celui d’une fonction en chapeau mexicain, c’est-à-dire, avec un centre et un pourtour antagoniste. Neri et al. (1999) ont ensuite réalisé une simulation informatique dans laquelle deux filtres gaussiens optimisés (dont le profil est identique au champ récepteur de V1) étaient combinés pour effectuer la tâche de détection. L’un des deux filtres était centré sur l’image, et l’autre était décalé spatialement. Cette simulation prenait ainsi en compte la disparité binoculaire. Les images de classifications obtenues présentaient des profils de réponses identiques à celui de l’observateur humain.
Cette technique a également été utilisée pour comparer les prototypes utilisés par l’observateur entre une cible présentée en vision fovéale et parafovéale (Levi & Klein, 2002). Le signal et le bruit étaient caractérisés par des sinusoïdes. Une tâche détection était tout d’abord réalisée, à chaque essais le signal était présenté avec l’un des quatre contrastes possibles (0%, 12%, 24% et 36%), les observateurs indiquaient s’il percevaient ou non le signal en précisant le degré de précision (de 1, pour un signal non visible, à 4, pour le signal le plus visible). Les images de classifications était proches du signal pour une position en fovéa et en parafovéa et ce quel que soit le niveau de contraste du signal. Dans une seconde expérience, les observateurs effectuaient une tâche discrimination entre 5 positions possibles et cette fois le niveau de contraste était toujours le même (en fovéa et parafovéa). A l’inverse de la tâche de détection, les images de classification était différente au centre et à la périphérie, en effet, la fréquence spatiale augmentait avec l’excentricité. En d’autres termes, les images de classifications étaient représentées par des sinusoïdes plus larges dans la parafovéa. Ces deux expériences montrent que les indices qui sont utilisés par l’observateur au cours de la tâche peuvent ressortir quel que soit le type de variable aléatoire.
La disparité binoculaire consiste en un déplacement d’une image issue d’un même environnement lorsque l’œil droit est ouvert et l’œil gauche fermé, puis l’inverse. Cet effet est du à la distance qui existe entre les deux yeux.