3.4 Modélisation cognitive du traitement des visages

Si les mots constituent une classe d’objets particuliers pour l’Homme, il en est de même de la classe des visages. Nous sommes en effet amenés à percevoir quotidiennement, dès notre naissance, des dizaines, voire des centaines, de visages différents. La place socio-écologique particulièrement importante tenue par les visages dans notre environnement visuel explique le grand nombre d’études conduites sur cette classe particulière d’objets et les différentes tentatives de modélisation des processus de reconnaissance faciale. Des modèles cognitivistes proches de ceux qui rendent compte de la reconnaissance visuelle des objets et des mots présentés précédemment, ont été élaborés dans les années quatre-vingt dans le but de décrire les principales étapes constitutives du traitement des visages.

Ces modèles supposent tous, grosso modo, un traitement sériel de l’information visuelle, qui implique une première étape d’analyse structurale des stimuli conduisant à la formation d’un percept, une deuxième étape d’appariement de ce percept à des unités de reconnaissance faciale (URF), et une dernière étape de traitement correspondant à l’identification du visage et à l’accès aux informations sémantiques sur la personne. Les architectures fonctionnelles de ces différents modèles constituent un cadre de référence utile pour l’étude en neuropsychologie expérimentale des troubles de reconnaissance des visages. Les résultats expérimentaux obtenus chez des adultes normaux, combinés à des tableaux de déficits neuropsychologiques, ont conduit à suggérer l’existence de différents ’modules’ de traitement, chacun associé à un niveau d’analyse de l’information faciale. Les différentes modélisations cognitives du traitement des visages, dérivant toutes de la même école théorique, supposent l’existence en mémoire d’une image prototypique de la classe des visages, par-delà même les caractéristiques spécifiques du visage particulier qui est perçu, cette image prototypique ayant été différemment appelée ’façogène’, ’prosopogène’, ou encore ’unité de reconnaissance faciale’. Nous ne présenterons dans ce paragraphe que les principaux modèles ayant notablement influencé les études et les conceptions théoriques relatives aux processus cognitifs impliqués dans les phénomènes de reconnaissance faciale (pour revue, Bruce, 1988; Bruyer, 1987, 1990, 2000). En respectant le contexte historique d’apparition, nous évoquerons tout d’abord le modèle de Hay et Young élaboré en 1982, puis celui de Rhodes proposé en 1985, et enfin le modèle de Ellis paru dans sa version modifiée et définitive en 1986. Le modèle de Bruce et Young fera l’objet d’une attention particulière dans le paragraphe suivant.

En 1982, Hay et Young ont été les premiers à formuler un modèle relativement détaillé, respectant les règles architecturales de modélisation cognitive, dont l’objectif était de rendre compte des différents processus mis en jeu dans le traitement des stimuli faciaux (Hay et Young, 1982 ; Figure 14).

message URL fig14.gif
Figure 14. Modèle de reconnaissance des visages proposé par D.C. Hay et A.W. Young en 1982 (d’après Hay et Young, 1982).

Ce modèle est composé de différentes ’boîtes’, ou modules de traitement, interconnectés et schématisés différemment selon leur précision fonctionnelle : les modules représentés par une forme arrondie pouvant être décomposés, selon les auteurs, en plusieurs sous-processus. L’élément central du modèle de Hay et Young correspond aux unités de reconnaissance faciale (Face Recognition Units) sous-tendant logiquement la notion de familiarité. Ces auteurs supposent en effet que chaque visage familier possède une représentation interne en mémoire à long terme, cette représentation ayant été constituée à partir d’occurrences diverses du visage dans le passé.

La reconnaissance des visages familiers impliquerait donc différentes étapes de traitement, modélisées de la façon suivante : (1) extraction des traits faciaux et assemblage de ces traits en une structure unitaire cohérente correspondant à un visage humain et permettant ainsi de procéder à une décision faciale (Representational Processes), (2) activation d’une URF associée au visage familier perçu, (3) accès aux informations sémantiques sur la personne (Person Information), et (4) accès au nom (Names). Le module parallèle, appelé Visual Processes, engloberait plusieurs opérations cognitives, dont le traitement de l’âge, du genre ou de la race et le maintien en mémoire à court terme de l’information faciale ; il serait en relation directe avec d’autres processus, dont ceux impliqués dans l’analyse de l’expression faciale. Ce modèle a cependant été critiqué pour son manque de précision et la présence de modules dont la fonction est encore trop grossièrement définie.

Le modèle de Rhodes (1985) s’inspire plus directement des théories de MArr. Il se distingue également des autres modèles de reconnaissance des visages dans le sens où son organisation n’est pas strictement séquentielle et hiérarchique. La reconnaissance des visages s’effectuerait, selon ce modèle, en quatre étapes. Dans un premier temps, un traitement visuo-spatial est effectué à partir de l’image rétinienne ; il permet d’aboutir à la construction d’une ébauche primitive dépendante des propriétés élémentaires du stimulus. Puis, une représentation analogique tridimensionnelle du stimulus est élaborée ; cette représentation dépend du point de vue de l’observateur et de l’expression faciale (équivalent à une représentation en 2.5 dimensions de MArr). Au cours d’une troisième étape, une représentation topographique, unique du visage, et indépendante du point de vue de l’observateur et de l’expression faciale est construite (équivalent à une représentation en 3 dimensions de MArr). L’accès à des informations sémantiques relatives à la personne puis à son nom, s’il s’agit d’un visage familier, est alors possible.

La décomposition des différentes étapes de traitement facial en processus plus élémentaires est doublée d’une recherche de latéralité pour chacune de ces opérations. L’autre particularité du modèle de Rhodes est donc la prise en compte d’un gradient d’asymétrie hémisphérique, qui n’est pas décrit en terme de tout-ou-rien, mais discuté en fonction des étapes de traitement.

La version finale du modèle de Ellis est parue en 1986 (Ellis, 1986) après plusieurs révisions (Ellis, 1975, 1981, 1983) prenant notamment en considération la notion d’asymétrie fonctionnelle cérébrale et remettant ainsi en question la dominance hémisphérique droite pour le traitement des visages (Young, 1984, 1985). Le modèle de Ellis (Figure 15) distingue trois grands groupes de processus : le premier groupe correspondant aux processus perceptifs précoces (Structural Encoding, Physical Analysis, et Non-verbal Expression Analysis), le second étant associé aux processus plus tardifs impliquant la mémoire (Face Register), et le troisième groupe correspondant à la récupération en mémoire des informations sémantiques liées à la personne (Person Nodes, Name Register, Voice Register, et Gait Register). L’apport original de ce modèle réside dans l’isolement d’une étape précoce d’encodage structural correspondant à l’étape de décision faciale et à la catégorisation du stimulus présenté dans la classe d’objets ’visages humains’. Une fois catégorisé comme ’visage’, le stimulus peut faire l’objet de traitements en parallèle, tels qu’une analyse physique de ses composantes et un traitement de son expression émotionnelle. Par ailleurs, Ellis n’utilise pas explicitement les termes d’’unités de reconnaissance faciale’, définis pour la première fois par Hay et Young dans leur modèle de 1982, mais parle plutôt de ’registre des visages’ (Face Register). Ce registre présenterait deux fonctions principales : la première étant d’associer un visage familier à une représentation stockée en mémoire, et la seconde étant de créer de nouvelles représentations lors de la mémorisation de nouveaux visages.

message URL fig15.gif
Figure 15. Version finale, parue en 1986, du modèle de reconnaissance des visages de H.D.Ellis (d’après Ellis, 1986).

L’architecture de ce modèle repose sur un fonctionnement essentiellement sériel des différents processus mis en jeu, mais n’exclut pas que certains traitements soient opérés en parallèle. Ainsi, les dernières étapes de reconnaissance faciale ne peuvent avoir lieu qu’une fois que le visage a été reconnu comme familier permettant ainsi l’activation en mémoire du ’noeud’ correspondant à la personne (Person Nodes). Selon Ellis, les informations sémantiques sont organisées en réseau associatif complexe constitué de ’noeuds’ interconnectés, permettant ainsi la mise en relation de diverses informations sur la personne (visage, âge, genre, race, voix, mode vestimentaire, nom, etc.). L’activation de ces noeuds peut d’ailleurs avoir lieu à partir de différents registres, celui des visages, des voix, de la démarche, du nom, ou encore celui de certains attributs faciaux (âge, genre, race). Le modèle de Ellis, dans sa version finale, est donc l’un de ceux qui prend le mieux en compte les informations contextuelles directement associées aux visages.