1. L’hypothèse de configuration

À la fin du XVIIIe siècle, une « science ” inventée par Lavater se proposait de pouvoir dresser le profil psychologique des hommes à partir de leurs visages : il s’agissait de la physiognomie, qui postulait que le caractère pouvait se lire directement à partir des traits du visage. Aristote avait déjà proposé au IVe siècle avant Jésus-Christ qu’un nez gros comme celui d’un cochon reflétait quelqu’un de stupide, qu’un nez plat comme celui d’un lion reflétait quelqu’un de généreux, etc. Aujourd’hui complètement abandonnée, cette science a laissé sa place à la notion de configuration, qui signifie que l’information faciale n’est pas seulement extraite par rapport aux traits du visage, mais dans sa globalité.

Au sens large, le terme de « configuration ” est employé pour désigner à la fois les relations spatiales qui existent entre les traits, leurs interactions, et leurs différentes dimensions. Les yeux, le nez et la bouche, mais également dans une moindre mesure, les cheveux, le front, les joues ou encore le menton sont des candidats évidents pour être des traits des visages. Ces traits diffèrent les uns des autres par de nombreuses dimensions, comme la taille, la couleur, la texture et la forme. La longueur du nez ou la longueur du front ou encore l’ouverture de la bouche font partie des dimensions des traits faciaux. La majorité des auteurs séparent les « dimensions ” des « traits ” (par exemple, Bartlett & Searcy, 1993, qu’ils considèrent comme deux types de « composants ”). Les deux termes se différencient par le nombre de modalités qu’ils peuvent prendre. En effet, un trait peut se définir comme une partie discrète du visage et est donc soit présent soit absent (par exemple, un grain de beauté sur un visage), tandis que les dimensions peuvent exister à deux niveaux voire plus (par exemple, un nez avec une certaine forme et une certaine taille). Les traits sont les constituants indépendants d’un objet. Dans le modèle de reconnaissance des objets à un niveau de base de Biederman (1987), un objet est composé d’un certain nombre de types de composants («geons”) et la classe d’objets est déterminée à la fois par le type de «geons” et par les relations spatiales entre les différents «geons”. Dans cette théorie, chaque «geon” peut être considéré comme un trait local de l’objet. Le traitement des traits pourrait être pertinent pour reconnaître des individus ou des expressions émotionnelles sur la base de certaines de leurs caractéristiques physiques, par exemple, la reconnaissance de Cyrano de Bergerac parce qu’il a un nez particulier, ou Mona Lisa par son mystérieux sourire enchanteur. Le visage ou l’expression est alors perçu(e) comme la somme de ses parties (c’est-à-dire ses traits) (Garner, 1978). Des catégories particulières de visages pouvant bénéficier de ce type de traitement sont les caricatures et les portraits-robots. Par exemple, en démontrant que le fait de caricaturer une expression augmente son intensité émotionnelle, Calder et al. (2000b) ont montré que l’intensité émotionnelle d’une expression faciale perçue est liée à la saillance des traits caractéristiques de l’expression (par exemple, comment les sourcils sont levés, comment les coins de la bouche sont retournés, etc.). De plus, pour Penry (1971, p.101), l’inventeur des portraits-robots, ‘ « ’ ‘  because each facial part is the sum of its individual details and the whole face is the sum of its sections, the total assessment of it requires a careful visual addition » ’. Il ajoute (p.14) : ‘ « ’ ‘  in an otherwise similar profile the substitution of only one feature greatly alters the whole facial appearance. Whenever there is even a one-feature difference, the eye is tricked into assuming that the entire facial outline is different  ’». Ainsi, Penry est un théoricien ‘ « ’ ‘  du traitement par traits » ’, qui admet cependant que le traitement de configuration joue un rôle dans la perception faciale. Par ailleurs, il semble que l’on soit sensible à certains traits, différents d’une expression à une autre, pour les reconnaître.Par exemple, le sourire permet d’identifier une expression de joie, tandis que des yeux écarquillés nous conduisent plutôt à identifier la peur. Morris, de Bonis, et Dolan (2002) ont montré que la reconnaissance de la peur était meilleure quand les visages exprimaient la peur avec les yeux (la bouche étant neutre) que lorsqu’ils exprimaient la peur avec la bouche (les yeux étant neutres). De plus, les auteurs ont observé, grâce à la technique d’IRMf événementielle, une activation de l’amygdale postérieure droite dans les conditions où (i) le visage entier exprimait la peur et (ii) seuls les yeux exprimaient la peur, par rapport aux conditions où (iii) seule la bouche exprimait la peur et (iv) ni les yeux ni la bouche n’exprimaient la peur. Par ailleurs, la reconnaissance de l’expression de peur était la meilleure quand le visage entier exprimait la peur, entraînant, pour cette condition comparée à toutes les autres, une activation de l’amygdale antérieure gauche. Ces résultats suggèrent que l’amygdale est sensible à la fois aux traits spécifiques et aux aspects de configuration des expressions faciales de peur.

Différents paradigmes ont cherché à mettre en évidence l’existence d’une configuration. Bassili (1978) a utilisé la technique inaugurée par Johansson (1973), consistant à disposer de petits spots illuminés sur un visage, ensuite filmé dans le noir. Cette méthode vise à montrer que l’on peut identifier un « visage ”, mais également différentes émotions à partir d’une configuration de lumières en mouvement, sans avoir d’informations structurales sur les traits faciaux. Par ailleurs, nous pouvons glaner des informations spécifiques sur les visages simplement à partir du pattern de transformations présent, sans faire appel aux informations portant sur la forme du visage, tout comme les marcheurs humains sont identifiés dans le paradigme de Johansson (1973) sans qu’aucun détail sur la forme de leurs membres ne soit donné. L’idée de configuration peut également être illustrée de la manière suivante : si vous prenez l’exemple d’un visage qui serait formé de deux parties, séparées par une ligne horizontale coupant le visage au niveau de la base inférieure des yeux, et appartenant à deux individus différents, tous deux familiers, alors le nouveau visage, formé par les deux parties, apparaît comme non familier et il s’avère difficile d’identifier les deux individus à qui appartiennent l’une et l’autre partie. La raison en est qu’une nouvelle configuration a émergé (Young, Hellawell, & Hay, 1987). Cet effet, dit ‘«’ ‘ l’effet de visages composés ’” (‘ « ’ ‘ composite face effect” ’) a été ultérieurement adopté et adapté par Calder, Young, Keane, et Dean (2000c) et par White (2000) pour mettre en évidence l’existence d’un traitement de configuration dans la reconnaissance des expressions faciales. Pour cela, Calder et al. (2000c, Expérience 3) et White (2000, Expérience 1) ont présenté des expressions faciales, dont les parties supérieures et inférieures, séparées au niveau du centre du nez, étaient congruentes (c’est-à-dire exprimaient une même émotion) ou non congruentes (c’est-à-dire exprimaient une émotion différente). De plus, les deux parties étaient présentées soit légèrement décalées selon l’axe horizontal soit dans le même axe. Une différence majeure entre les deux expériences consistait à présenter des expressions faciales appartenant à un même individu (White, 2000, Expérience 1) ou à deux individus différents (Calder et al., 2000c, Expérience 3). Les deux expériences ont montré que, lorsque les deux expressions n’étaient pas congruentes, la reconnaissance était facilitée lorsqu’elles étaient décalées. En revanche, lorsque les deux parties étaient congruentes, les résultats des deux expériences diffèrent. White (2000, Expérience 1) a observé que la reconnaissance de l’expression était facilitée par une présentation selon le même axe, tandis que Calder et al. (2000c, Expérience 3) n’ont mis en évidence aucun effet. Précisons que les tests statistiques utilisés dans les deux expériences pour mesurer l’influence d’une modalité sur l’autre étaient différents (test de Tukey et ANOVA respectivement). Ces recherches ont contribué à mieux comprendre l’effet du traitement de configuration, mais n’ont pas étudié précisément le rôle de chacune des parties du visage. de Bonis, De Boeck, Pérez-Diaz, et Nahas (1999) ont montré que certaines émotions, telle que la joie, semblent être perçues sur la base d’une seule des deux parties du visage (pour la joie, la partie inférieure), tandis que pour d’autres émotions, telle que la peur, la combinaison de la partie inférieure et de la partie supérieure serait nécessaire à leur perception. Ces résultats s’inscrivent dans une théorie probabiliste de la perception des émotions.

L’importance de l’information de configuration dans la perception des visages est largement acceptée. En effet, on peut la voir, par exemple, dans les peintures de visages créées depuis la moitié du XVIe siècle par des peintres allégoriques tels que Giuseppe Arcimboldo et Utagawa Kuniyoshi (Hulten, 1987 ; Okabe, 1987). Dans ces types de peintures, les traits faciaux individuels peuvent être remplacés par des corps, des animaux, des fleurs, des fruits, ou même des livres ; néanmoins, une configuration faciale est facilement perçue (Kaufmann, 1987). Contrairement à la reconnaissance des visages, il semblerait que la reconnaissance des objets ne soit pas sous-tendue par ce type d’information. En effet, la spéculation la plus commune dans la littérature est que la reconnaissance des visages utilise des représentations de configuration, tandis que la reconnaissance des objets à un niveau de base utilise des représentations de traits. Malheureusement, comme l’ont souligné plusieurs recherches (Bruce & Humphreys, 1994 ; Cooper & Wojan, 2000), cette proposition reste vague. En effet, si l’on admet que l’identification d’un visage utilise des représentations de configuration, alors on peut en conclure que dans l’identification d’un visage, les relations réciproques entre les éléments du visage sont importantes. Cependant, il semble qu’une certaine forme de représentation de configuration est utilisée de la même façon pour la reconnaissance d’un objet à un niveau de base, sinon on devrait être capable de reconnaître des versions des objets lorsque leurs fréquences spatiales sont brouillées aussi bien que lorsqu’elles sont intactes. D’un autre côté, si l’on suppose que les objets à un niveau de base sont reconnus avec des représentations de traits, alors on peut admettre qu’une certaine forme de primitive visuelle est extraite de l’image en tant que partie du processus de reconnaissance. Cependant, une certaine forme de traits est également probablement extraite pendant l’identification des visages, puisque tous les systèmes de reconnaissance des formes doivent utiliser certaines formes de traits primitifs (même s’ils sont de simples pixels). Il est fortement probable que les deux types de représentations, sous-tendant l’information relative aux traits et l’information relative à la configuration, sont utilisés lorsque l’on perçoit et que l’on se souvient de visages. Dans ce cas, la première est souvent considérée moins importante que la seconde (Bartlett & Searcy, 1993 ; Diamond & Carey, 1986 ; Garner, 1978 ; Rhodes, Brake, & Atkinson, 1993 ; Searcy & Bartlett, 1996).

Le terme de « configuration ” a été utilisé indifféremment et il convient d’être plus précis sur la définition de ce terme. En effet, il couvre un large champ de définitions («‘ the many faces of configural processing” ’, titre judicieux de l’article de Maurer, Le Grand, & Mondloch, 2002), qui sont parfois difficiles à distinguer les unes des autres de manière conceptuelle ou de manière empirique. Dans la suite de notre exposé, nous présenterons successivement diverses approches utilisant différemment le terme de configuration. Une première approche consiste à distinguer le traitement de configuration lié aux relations de premier ordre et le traitement de configuration lié aux relations de second ordre. Une seconde approche, dérivée de la première, considère un codage dit « relationnel ”. Enfin, une troisième approche interprète l’information de configuration comme une information « holistique ”, alternative extrême. Après avoir décrit ces trois approches, une synthèse nous permettra de les comparer, puis de discuter du mode de traitement utilisé dans la reconnaissance des visages et des expressions faciales. Enfin, nous exposerons des extensions de l’hypothèse de configuration, à travers trois hypothèses supplémentaires, et nous conclurons sur l’ensemble des hypothèses.