Chapitre 5 : Fréquences spatiales et traitement de l'information faciale

Le système visuel décompose l'image rétinienne en différents types d'informations qui sont prises en charge par des régions cérébrales spécifiques. Ce n'est qu'à un plus haut niveau de traitement que l'image est recomposée pour constituer une perception uniforme. Cette analyse sépare différentes dimensions comme, par exemple, l'orientation ou la couleur (Buser & Imbert, 1987 ; Marr, 1982). Le système visuel décompose aussi le stimulus en différentes fréquences spatiales, qui correspondent à une variation plus ou moins rapide du contraste (voir Buser & Imbert, 1987 ; Ginsburg, 1986). Les basses fréquences spatiales (variations lentes du contraste) permettent ainsi de percevoir l'aspect global du stimulus. Les hautes fréquences spatiales (variations rapides du contraste) permettent de percevoir les détails du stimulus. Marr (1982) a notamment suggéré que ces dernières permettent de percevoir la bordure des objets ou des parties d'objets avec une grande précision.

Plusieurs auteurs ont suggéré que l'intégration de l'information visuelle est plus ou moins rapide selon les fréquences activées. La sensibilité du système visuel repose, en grande partie, sur sa capacité à intégrer l'énergie lumineuse à travers le temps. L'acuité visuelle émerge progressivement et les détails d'une scène deviennent peu à peu discernables en fonction de l'énergie lumineuse (Eriksen & Schultz, 1979 ; voir aussi Hughes, Nozawa, & Kitterle, 1996 ; Sergent, 1986a, 1986b ; Watson, 1986). Au niveau psychologique, il en résulte un percept dont la clarté augmente graduellement, d'une perception diffuse à une image de plus en plus nette où les plus petits détails deviennent peu à peu perceptibles (voir Figure 13). Au niveau physiologique, le temps d'intégration de l'information par les différents canaux varie selon la gamme de fréquences auxquels ils sont sensibles, les basses fréquences spatiales étant intégrées le plus rapidement. Cette microgénèse de l'intégration des différentes gammes de fréquences spatiales se manifeste dans le phénomène de "précédence globale" ; la forme globale d'un stimulus est perçue avant ses parties (Navon, 1977).

Sergent (1986b ; voir aussi Sergent, 1989), suggère que l'intégration progressive des hautes fréquences spatiales s'accompagne d'une augmentation du contenu informatif de l'image du visage. Celle-ci rend alors possible de nouvelles opérations. Par exemple, si l'on considère la Figure 13, on constate qu'il est possible dès les premières étapes de déterminer que l'image représente un visage. Il n'est cependant pas encore possible à ce stade d'identifier le visage ou de déterminer son genre et son état émotionnel. Ces informations ne peuvent être extraites que dans les étapes ultérieures. La reconnaissance de la personne sera alors possible assez rapidement, pour ceux qui la connaissent. De même, il sera possible de déterminer le genre et l'état émotionnel. Les différentes informations en jeu peuvent d'ailleurs nécessiter un niveau d'intégration spécifique.

message URL FIG13.gif
Figure 13 : Illustration de l'augmentation progressive d'acuité visuelle en fonction de l'intégration initiale des basses fréquences puis de l' intégration progressive des hautes fréquences spatiales (adapté de Sergent, 1986b).

Trois approches sont utilisées pour déterminer le rôle des différentes bandes de fréquences spatiales dans la reconnaissance du visage. La première consiste à utiliser la méthode de pixélisation (Harmon, 1973 ; Harmon & Julesz, 1973). Un quadrillage est appliqué à l'image et la luminosité moyenne de chaque case est déterminée. L'image apparaît alors sous la forme d'une mosaïque. La manipulation de la dimension du quadrillage permet de faire varier la résolution. Diminuer la résolution (i.e., diminuer la taille du quadrillage) revient à diminuer les informations de hautes fréquences spatiales. Les recherches qui ont utilisé ce paradigme indiquent que la reconnaissance du visage est relativement bonne pour des images constituées de peu de pixels (Bachmann, 1987, 1991 ; Bachmann & Kahusk, 1997 ; Bhatia, Lakshminarayanan, Samal, & Welland, 1995 ; Costen, Parker, & Craw, 1994, 1996 ; Harmon, 1973 ; Harmon & Julesz, 1973 ; Uttal, Baruch, & Allen, 1995a, 1995b). Dans la recherche de Harmon (1973), par exemple, la reconnaissance de personnes connues était supérieure au hasard pour des images d'une résolution de 16 x 16 ( 256 pixels). Par ailleurs, Bachmann (1991) a observé que les taux de reconnaissance de visages familiarisés sont presque identiques pour des résolutions allant jusqu'à 15 x 15 pixels, niveau auquel les performances chutent mais restent néanmoins supérieures au hasard. Les recherches ultérieures ont aussi rapporté des "plateaux" dans les performances de reconnaissance (Bachmann & Kahusk, 1997 ; Bhatia et al., 1995 ; Costen et al., 1994, 1996 ; Uttal et al., 1995a, 1995b). Par exemple, Bachmann et Kahusk (1997) ont rapporté qu'un visage normal, inconnu avant l'expérience, est mieux reconnu qu'un visage de résolution 16 x 16. Ensuite, un premier plateau de performance est observé jusqu'à une résolution de 12 x 12 pixels. Un dernier plateau s'étend d'une résolution de 11 x 11 à une résolution de 9 x 9 pixels. Dans ce dernier plateau, les performances restent au-dessus du hasard. L'ensemble de ces recherches indique que les hautes fréquences spatiales, éliminées par la pixélisation, jouent un rôle mineur dans la reconnaissance du visage. Cependant, une telle approche pose quelques problèmes. Notamment, à fréquence spatiale égale, la reconnaissance d'un visage pixélisé est moins bonne que celle d'un visage filtré avec une autre méthode (Costen et al., 1994 ; Uttal et al., 1995a, 1995b). Le quadrillage introduit des informations de hautes fréquences qui interfèrent avec l'intégration des basses fréquences. De plus, les performances varient selon la position du quadrillage (Harmon, 1973 ; Harmon & Julesz, 1973).

La deuxième approche consiste à cacher une partie du stimulus par une grille dont les bandes sont plus ou moins épaisses. La grille peut être présentée simultanément avec le stimulus (masquage fréquentiel simultané), avant (masquage fréquentiel antérograde) ou après (masquage fréquentiel rétrograde). Plusieurs études ont adopté cette approche26 (Bruyer, 1988 ; Inui & Miyamoto, 1984 ; Keenan, Whitman, & Pepe, 1989 ; Moscovitch, 1988 ; Moscovitch & Radzins, 1987 ; Tieger & Ganz, 1979). Par exemple, Tieger et Ganz (1979) ont étudié le rôle de bandes de fréquences allant de 0,54 à 3,9 cycles par degré d'angle visuel (cy/°) lors de la reconnaissance de visage précédemment appris. Ils ont rapporté que l'élimination des basses fréquences spatiales est celle qui gêne le plus la reconnaissance, avec une perturbation maximale pour un masquage de 2,2 cy/°. Inui et Miyamoto (1984) ont montré que l'identification de célébrités diminue progressivement au fur et à mesure que des bandes de fréquences de plus en plus basses sont masquées. Dans l'ensemble, les études rapportent qu'une bande de fréquence médiane (de 8 à 16 cy/l) est critique dans la reconnaissance du visage. Cette approche pose, cependant, des problèmes similaires à ceux posés par la pixélisation : le masque fréquentiel introduit lui aussi des informations de hautes fréquences qui peuvent interférer avec le traitement du visage. De plus, le masque peut être placé à différents endroits du visage et, ainsi, certaines informations peuvent apparaître ou, au contraire, être dissimulées, ce qui est de nature à faire varier les performances pour une même bande de fréquence (Riley & Costall, 1980).

Une troisième approche consiste à éliminer certaines bandes de fréquences spatiales du spectre de l'image par le biais d'une transformée de Fourrier. Cette approche a l'avantage, par rapport aux deux autres, de ne pas ajouter d'information. Ainsi, Ginsburg (1978) a rapporté que les basses fréquences sont suffisantes pour réussir un appariement d'identité. Selon lui, les hautes fréquences sont redondantes et n'apportent rien de plus aux performances. Harvey et Sinclair (1985; voir aussi Harvey, 1986) ont demandé à leurs participants d'apprendre des visages, puis de juger de la similarité de visages filtrés avec les visages appris. Ils observent que la similarité la plus grande entre un visage filtré et sa représentation mnésique est centrée sur des fréquences de 3,8 cy/°, c'est à dire des basses fréquences spatiales. Harvey (1986) a suggéré que les hautes fréquences ne sont pas prises en compte dans la représentation mnésique d'un visage. Cependant, plusieurs auteurs ont aussi observé que l'ajout des hautes fréquences améliore les performances de reconnaissance (e. g., Fiorentini, Maffei, & Sandini, 1983 ; Sergent, 1985). Par exemple, Fiorentini et al. (1983) ont progressivement augmenté la limite de leur filtre passe-bas à 5, 8, puis à 12 cy/l. Ajouter aux basses fréquences des fréquences de plus en plus hautes améliorait la reconnaissance. Par contre, ajouter des fréquences de plus en plus basses aux hautes fréquences n'influençait pas la reconnaissance. Par ailleurs, Hayes et al. (1986) ont rapporté, à contre-courant, que la reconnaissance d'un visage familiarisé est meilleure pour des fréquences de 25 cy/l, ce qui correspond à des hautes fréquences. La reconnaissance est au niveau du hasard pour des fréquences de 3,2 cy/l et dépasse ce niveau à partir de 6,4 cy/l. Ces auteurs ont suggéré que les hautes fréquences jouent un rôle plus important que ce qu'on pensait dans la reconnaissance. Cependant, Millward et O'Toole (1986 ; voir aussi O'Toole, Millward, & Anderson, 1988) ont rapporté qu'un visage appris sans être filtré est, par la suite, mieux reconnu à partir de fréquences inférieures à 11 cy/l plutôt que de fréquences supérieures à 11 cy/l.

En conclusion à toutes ces recherches, il apparaît que les basses fréquences jouent un rôle très important dans la reconnaissance du visage. Les hautes fréquences semblent aussi intervenir, mais leur utilité est plus discutée et dépend probablement des conditions et de la tâche à réaliser (voir, par exemple, Liu, Collin, Rainville, & Chaudhuri, 2000). D'une manière générale, la reconnaissance du visage est optimale pour des fréquences allant de 8 à 16 cycles par largeur du visage ou de 2,2 à 4,8 cycles par degré d'angle visuel. Pour ce qui est des autres informations faciales, le rôle des différentes bandes de fréquences n'a pas été très étudié. A notre connaissance, aucune recherche n'a été menée concernant l'expression faciale émotionnelle. Pour le genre, Sergent (1985, 1986b) a rapporté que sa catégorisation est moins sensible à l'ajout de hautes fréquences que la reconnaissance du visage. Dans l'expérience de Sergent (1986b), la catégorisation du genre bénéficiait moins que l'accès aux informations sémantiques de l'ajout de hautes fréquences. Il semble donc que ce type d'informations puisse être extrait à partir de fréquences basses, inférieures à celles qui sont nécessaires à la reconnaissance du visage.

Les expériences que nous allons maintenant décrire portent sur le rôle des différentes bandes de fréquences spatiales du système visuel dans la catégorisation du genre, la reconnaissance de l'expression faciale émotionnelle et l'appariement d'identité. L'objectif est de déterminer, pour chacune de ces informations faciales, les bandes de fréquences qui, d'une part, permettent de les extraire correctement et, d'autre part, qui sont les plus efficientes. Comme dans l'étude présentée au Chapitre 4, les mêmes stimuli et le même protocole général sont utilisés pour les trois tâches.

Notes
26.

Les fréquences spatiales peuvent être spécifiées de plusieurs manières. Les publications sur ce sujet rapportent, par exemple, le nombre de cycles par degré d'angle visuel ou par largeur du visage, voir même par largeur d'image. Elles ne rapportent pas toujours les paramètres permettant de faire la conversion de l'un à l'autre, ce qui rend parfois difficile la comparaison. Dans les lignes qui vont suivre, nous présenterons l'indicateur utilisé par le ou les auteurs en précisant simplement s'il s'agit de hautes ou de basses fréquences.