4- Stimulus plus complexes : les images naturelles

L’idée aujourd’hui dominante est que, pour comprendre le fonctionnement de notre vision, il faut placer le système dans des conditions de perception se rapprochant le plus possible des conditions naturelles. Pour ce faire, les stimulus utilisés s’étendent, au-delà des dessins, aux photographies d’objets et de scènes naturels dont le contenu fréquentiel varie sur un large spectre.

Les images naturelles ont une propriété commune : l’organisation périodique de leur contenu spatial. L’analyse de ces images naturelles met en évidence que cette caractéristique commune se traduit par un spectre fréquentiel tout à fait spécifique. En effet, la majorité de l’énergie contenue dans une image naturelle est concentrée dans les basses fréquences spatiales et décroît de façon linéaire 8 au fur et à mesure que des fréquences plus hautes sont considérées. Field (1987) souligne de façon plus générale que cette énergie est inversement proportionnelle à la fréquence spatiale. Compte tenu de ces régularités statistiques des stimulations de notre monde visuel, les théories les plus récentes proposent que le système visuel utilise au mieux cette information délivrée par l’environnement au travers du capteur oculaire. Les basses fréquences spatiales, ayant une plus grande énergie, seraient donc mieux représentées en termes de traitement que les hautes fréquences spatiales.

Les modèles de la perception visuelle se sont inspirés de cette asymétrie entre les basses et les hautes fréquences spatiales d’un signal naturel. Le modèle “ Coarse-to-Fine ” suppose par exemple que les informations grossières sont intégrées avant les informations plus fines, dès le niveaux des différents canaux chargés de véhiculer les basses et les hautes fréquences spatiales. En effet, Parker, Lishman et Hughes (1992) montrent que la qualité d’une scène naturelle paraît meilleure lorsque la succession temporelle des images contenant une gamme limitée du spectre fréquentiel suit une progression “ Coarse-to-Fine ”, c’est-à-dire des basses fréquences spatiales aux plus hautes. De la même façon, Schyns et Oliva (1994) mettent en évidence dans plusieurs études une asymétrie temporelle de prise d’information en faveur des basses fréquences spatiales dans la mesure où, pour des temps très courts de présentation d’images naturelles, la catégorisation est réalisée en priorité sur la base des informations spatiales les plus grossières.

Un modèle de type “ Coarse-to-Fine ” constitue une approche hiérarchique figée de l’organisation du traitement de l’information visuelle. Cette conception a cependant évolué. En effet, des travaux plus récents mettent en évidence que le traitement visuel peut s’opérer selon un modèle “ Fine-to-Coarse ”, en fonction des conditions de stimulation proposées (McSorley & Findlay, 1999 ; Oliva & Schyns, 1997 ; Parker, Lishman & Hughes, 1996). Le système visuel est donc capable d’adapter la prise et/ou le traitement de l’information afin d’utiliser au mieux les informations disponibles en fonction de la demande visuelle.

Les études évaluant le rôle des fréquences spatiales dans la perception d’objets tentent de déterminer LA gamme de fréquences la plus utile pour réaliser la tâche demandée. La confrontation des différentes études de la littérature témoignent d’une grande variabilité conduisant à penser qu’il n’existe sans doute pas une unique gamme de fréquences sous-tendant la reconnaissance d’un objet. Ainsi, selon les études, la gamme fréquentielle optimale pour reconnaître un visage peut varier par un facteur de 4 (Gold, Bennett & Sekuler, 1999 ; Hayes, Morrone & Burr, 1986). Cette variabilité est également trouvée lorsqu’il s’agit de déterminer le rôle des différentes fréquences spatiales lors de l’identification de lettres (Gold et al., 1999 ; Parish & Sperling, 1991). Selon Legge, Pelli, et al. (1985), un seul canal fréquentiel serait suffisant pour lire, compte tenu de la largeur de bande des canaux.

Notes
8.

lorsque les mesures sont exprimées sur une échelle logarithmique