I.4. Une métaphore multidimensionnelle de l'espace des visages : le modèle de Valentine

Pendant longtemps, les différents effets observés sur la reconnaissance des visages, et notamment les effets de distinctivité, de caricature et de race, ont été étudiés séparément, donnant lieu à des explications théoriques et à des modèles différents. Cependant, Valentine (1991) a noté de grandes similitudes entre ces modèles. Valentine et Bruce (1986a, 1986b) rendaient compte de l'effet de distinctivité en se référant à un "prototype" facial. Rhodes et al. (1987) parlaient, eux, d'une "norme" pour expliquer la meilleure reconnaissance des caricatures. Ces deux interprétations présentent une grande ressemblance avec la théorie du "schéma facial" proposée par Goldstein et Chance (1980) pour expliquer l'effet de race et l'effet de renversement (pour le renversement, voir aussi Diamond & Carey, 1986). Qu’il s’agisse d’un prototype, d’une norme ou d'un schéma facial, ces modèles supposent tous que les effets dont ils rendent compte s’expliquent à partir d’un visage "moyen" qui est abstrait à partir de la population des visages précédemment rencontrés. Valentine (1991) parle de modèles d’encodage à partir d’une norme.

Valentine (1991) rend compte des différents effets observés dans la reconnaissance du visage en postulant un espace multidimensionnel (voir aussi : Valentine, 2001 ; Valentine, Chiroro, & Dixon, 1995 ; Valentine & Endo, 1992). Les n dimensions de cet espace correspondent aux différents traits physionomiques qui sont utilisés pour encoder les visages. Sur la base d’études antérieures (e. g., Shepherd & Deregowski, 1981), elles peuvent correspondre, par exemple, à la couleur des cheveux ou à leur longueur, à la forme générale du visage ou à l’âge. Le nombre de ces dimensions doit être suffisamment grand pour représenter tous les aspects d’un visage permettant de le distinguer des autres visages. Valentine (1991) considère que cet espace est un espace euclidien pour des raisons de clarté et de simplicité et en l’absence d’évidence en faveur d’une métrique plus appropriée. L’origine de cet espace correspond à la tendance centrale des différentes dimensions. Les différents visages mémorisés se répartissent dans l’espace autour de cette tendance centrale en fonction de leurs caractères spécifiques (Figure 2). Par définition, les visages typiques (i.e. qui se distinguent peu de la moyenne des visages) sont plus proches de la valeur centrale que les visages distinctifs ( i.e., qui se distinguent fortement de la moyenne des visages sur un ou plusieurs traits). De plus, Valentine considère que l’on est plus souvent confronté à des visages typiques qu’à des visages distinctifs. La densité des points dans l’espace (i.e., le nombre de visages précédemment vus) est donc plus importante autour de la valeur centrale, et diminue lorsqu’on s’en éloigne. Par ailleurs, les différents points correspondent aux visages qui ont été vus précédemment, c’est à dire non seulement les visages familiers (qu’on peut reconnaître), mais aussi tout visage rencontré, même s’il ne peut effectivement être reconnu (soit qu’il n’ait pas donné lieu à un encodage suffisant, soit qu’il ait été "oublié"). Une connaissance implicite dérivée de l’expérience de la vie quotidienne contribue donc à la distribution des visages dans l’espace multidimensionnel.

Dans cet espace, les visages sont encodés en termes de déviation par rapport à la valeur centrale, à l'origine de l'espace. Le nombre de dimensions étant noté n, un vecteur à n dimensions partant de l'origine représente les valeurs des différentes caractéristiques d'un visage donné. Le processus de reconnaissance est considéré comme impliquant deux étapes. Le visage perçu est d'abord encodé comme un vecteur à n dimensions. L'encodage prend en compte le bruit qui va dépendre des conditions d'encodage, ce que Valentine appelle l'erreur associée. Ainsi, lorsque ces conditions seront difficiles, le vecteur dérivé aura une erreur associée qui sera importante, ce qui peut être représenté comme une zone d'incertitude autour des coordonnés du vecteur. Un processus de décision est ensuite mis en oeuvre pour déterminer si ce vecteur correspond à un vecteur familier ou non. Ce processus de décision prend en considération, d'une part, l'erreur associée au stimulus lors de l'encodage et, d'autre part, une mesure de similarité entre le vecteur du stimulus et le ou les vecteur(s) des visages les plus proches en mémoire.

message URL FIG02.gif
Figure 2 : Représentation, restreinte à deux dimensions, du modèle de l'espace multidimensionnel des visages (Valentine, 1991).

Valentine montre qu'il est possible d'utiliser l'espace multidimensionnel pour expliquer les effets de distinctivité, de caricature et de race, voire même de renversement. Pour ce qui est de l'effet de distinctivité, les visages distinctifs sont localisés dans des régions éloignées de l'origine, où la densité des points est faible. Par conséquent, la décision de reconnaissance (i.e., le visage perçu est localisé dans une région où se trouve un visage appris) ou de rejet (i.e., aucun visage ne se trouve dans la région localisée) est relativement facile. Si, au contraire, le visage familier est typique, sa localisation tombe dans une région à forte densité de points. Même si la localisation est proche de celle de la représentation mnésique, elle le sera aussi de celles d'autres visages. La décision sera alors plus difficile, plus lente, et plus sensible à l'erreur. Dans le cas où le visage typique est inconnu, il sera localisé dans une région à forte densité de points et, par conséquent, le risque de fausse reconnaissance sera accru. L'effet de caricature peut lui s'expliquer par l'exagération des caractéristiques distinctives, c'est à dire par un éloignement de la zone de forte densité.

L'effet de race s'explique par le fait que les dimensions de l'espace sont déterminées par leur capacité à différencier les visages rencontrés. Ces dimensions ne sont donc pas forcément appropriées pour les visages des autres groupes ethniques. Selon Valentine, même si les visages des autres groupes ethniques sont éloignés de la valeur centrale des visages de son propre groupe ethnique, ils sont regroupés avec une forte densité autour de leur propre valeur centrale. L'effet de race s'expliquerait donc à la fois par la distance à la norme et la densité des exemplaires. En effet, la discrimination peut résulter d'une évaluation de la différence entre deux vecteurs partant de l'origine. Dans ces conditions, à distance inter-faciale égale, deux visages proches de l'origine forment un angle plus ouvert que deux visages éloignés de l'origine. Valentine explique l'effet du renversement du visage par une augmentation de l'erreur associée. Finalement, dans les tâches de décision faciale (visage vs. non-visage), le temps de catégorisation devrait être d'autant plus long que le visage est éloigné de l'origine de l'espace, i.e. quand il est distinctif, caricaturé ou qu'il appartient à un autre groupe ethnique.

Valentine souligne qu'il n'est pas obligatoire de postuler l'abstraction d'une norme. Une explication alternative, qui se base sur la similarité entre les stimuli, peut aussi rendre compte des effets décrits (e. g., Medin & Schaffer, 1978 ; Nosofsky, 1986). Dans le cadre de cette théorie, seuls les différents exemplaires de la catégorie sont stockés en mémoire. Toute tâche impliquant l’encodage de visages est alors réalisée en prenant en compte la similarité entre l’ensemble des exemplaires stockés et l’exemplaire en cours de traitement. Valentine parle de modèles d’encodage à partir des exemplaires. L'encodage d'un visage va alors consister à localiser ce stimulus dans l'espace, non pas sous la forme d'un vecteur à n dimensions mais en fonction des coordonnées extraites des valeurs des différentes dimensions. Comme pour les modèles d’encodage à partir d’une norme, l'encodage s'accompagne d'une estimation de l'erreur. Le processus de décision s'appuie, non pas sur des mesures de similarité entre vecteurs, mais sur l'estimation de la distance entre les coordonnées du visage et les coordonnées du ou des visages les plus proches. Les deux types de modèles sont donc des modèles dits de "voisin le plus proche". Ils diffèrent, principalement, sur deux points : a) l'intervention, éventuelle ou non, d'une norme abstraite dans le codage ; b) l'utilisation d'une mesure de similarité basée soit sur des vecteurs soit sur des distances (pour une discussion supplémentaire sur ce point, voir Valentine, 1990, 1991). En 1991, Valentine ne choisit pas entre ces deux modèles. Cependant, il penchera plus tard pour un modèle d'encodage à partir des exemplaires (e. g., Valentine & Endo, 1992).

La métaphore de l'espace multidimensionnel proposée par Valentine rend compte de façon satisfaisante des divers effets observés dans la reconnaissance des visages. Toutefois, quelques points demeurent encore obscurs. Tout d'abord, comme l'a souligné Valentine, la nature exacte des mécanismes de décision reste à spécifier. De plus, la nature des dimensions qui composent cet espace restent à déterminer et le choix d'une métrique euclidienne peut être lui-même discuté. La référence aux modèles d'encodage par rapport à une norme soulève une nouvelle question : y-a-t-il une ou plusieurs normes ? Valentine a développé sa démonstration en considérant qu'une seule norme est utilisée pour coder toutes les catégories de visages, quels que soit le groupe ethnique ou le genre, par exemple. Il s'inscrit donc dans le droit fil des postulats de Valentine et Bruce (1986). Cependant, comme il le souligne lui-même, d'autres auteurs postulent des normes spécifiques pour des catégories de visages d'origine ethnique ou de genre différents (e. g., Rhodes et al., 1987 ; H. Ellis, 1981). L'hypothèse d'une multiplicité des normes pose alors le problème du choix de la norme appropriée. Mais l'hypothèse d'une norme unique pose des questions encore plus délicates. Ainsi, avec plusieurs catégories de visages, il n'y a pas de raison que la densité de visages soit plus importante à l'origine de l'espace multidimensionnel. La Figure 3 illustre ce point de vue en ne considérant que deux variables, l'origine ethnique et le genre.

message URL FIG03.gif
Figure 3 : Localisation de différentes catégories de visages dans l'espace multidimensionnel avec une norme unique.

On constate aisément qu'il existe des zones différentes de forte densité selon le genre ou l'origine ethnique des visages. La tendance centrale ne correspond donc pas à une zone de forte densité, mais à la région intermédiaire entre plusieurs de ces zones. Ainsi, un visage proche de cette tendance centrale, i.e. un visage typique selon la définition de Valentine (1991), sera un visage inhabituel (pour un raisonnement similaire, voir Burton & Vokey, 1998 ; Wickham, Morris, & Fritz, 2000).