3.1. Les techniques de transformation des relations spatiales dans la perception et la reconnaissance des visages et dans la perception et la reconnaissance des expressions faciales : brève revue de littérature

C’est dans le domaine de la perception des visages que Susan Brennan (1985) a développé des visages de synthèse à travers un ‘«’ ‘ générateur de caricatures informatisées ’” (‘ « ’ ‘ computer-implemented caricature generator ’”) représentés par 37 lignes majeures, elles-mêmes basées sur un nombre fixe de 169 points. Cette procédure a été réutilisée par la suite dans certaines études (par exemple, Calder et al., 2000b ; Rhodes et al., 1987). La modification consistant à faire varier la distance entre les deux yeux a également été utilisée de nombreuses fois (par exemple, Barton et al., 2001 ; Leder & Bruce, 1998 ; Leder et al., 2001 ; Searcy & Bartlett, 1996). Afin de déterminer la nature des traits et des relations spatiales pertinents dans la discrimination de genre, des études de modélisation ont utilisé un certain nombre de points de référence issus de photographies de visages d’hommes et de femmes (Brunelli & Poggio, 1993 ; Burton, Bruce, & Dench, 1993 ; Fellous, 1997 ; Scheuchenpflug, 1999 ; Wilson, Loffler, & Wilkinson, 2002). D’autres études ont utilisé une tâche de familiarité (Cooper & Wojan, 2000, avec des photographies en couleur de personnalités ; Leder & Bruce, 2000, avec des dessins au trait ; Rhodes et al., 1993, avec des photographies en noir et blanc), dans laquelle les modifications des relations spatiales entre les traits étaient assurées par des variations dans la distance entre les traits internes du visage.

Dans le domaine des expressions faciales, des transformations d’expressions ont été opérées dans des modélisations informatiques et dans des expériences appliquées, en psychologie cognitive. Plusieurs études dans le domaine informatique ont utilisé des expressions de synthèse dynamiques, animées en 3D (Bui, Heylen, Poel, & Nijholt, 2001, chez un agent inanimé ; Gur et al., 2002a, avec des photographies d’acteurs et d’actrices professionnelles ; Wehrle, Kaiser, Schmidt, & Scherer, 2000, avec des images photographies schématiques). Les études de Bui et al. (2001) et de Wehrle et al. (2000) se sont inspirées des descripteurs objectifs fournis par le système FACS (Facial Action Coding System, Ekman & Friesen, 1978) pour étudier les mouvements des muscles faciaux. De plus, des modèles multidimensionnels du codage de l’expression faciale ont été proposés par Calder et ses collaborateurs (Calder et al., 2000b ; Calder, Burton, Miller, Young, & Akamatsu, 2001a) et par Dailey et al. (2002). Calder et al. (2000b) ont suggéré que les émotions seraient reconnues d’après l’interaction d’une constellation de traits, selon plusieurs dimensions, chaque trait pris individuellement étant codé selon une seule dimension continue. Une alternative consisterait à considérer que les configurations de traits qui se produisent fréquemment en même temps (par exemple, les sourcils soulevés, les yeux ouverts et le front plissé) sont codées sur la même dimension. Dans les deux cas, cependant, les résultats de Calder et al. (2000b) ont suggéré que le nombre de dimensions de l’espace sous-tendu nécessiterait d’être plus grand que deux, puisque le problème principal que présente un modèle à deux dimensions pour rendre compte des données de Calder et al. (2000b, Expérience 4) est son nombre limité de dimensions. Le système employé par Calder et al. (2001a) consistait d’abord à encoder les positions des traits faciaux par rapport à un visage moyen puis à déformer chaque visage par rapport au visage moyen (en préservant ainsi la texture, mais en enlevant les variations relatives à la forme individuelle des visages). Plus récemment, Dailey et al. (2002) ont construit un modèle computationnel, plus plausible biologiquement, qui imite certaines des fonctions importantes du système visuel. Ce modèle a non seulement démontré plus de similarité avec les performances humaines à choix forcé, mais il a également rendu compte des données soutenant à la fois des théories catégorielles et multidimensionnelles de la perception et de la reconnaissance des expressions faciales. Dailey et al. (2002) ont trouvé que leur modèle de reconnaissance des expressions faciales suffit pour expliquer de nombreux aspects des performances humaines dans des tâches comportementales, mais ils n’ont pas de preuves de la nécessité des décisions particulières implémentées.

Ajoutons que ces études (en particulier, Bui et al., 2001 ; Calder et al., 2001a ; Dailey et al., 2002 ; Martinez, 2003, avec un modèle feedforward) ont porté une attention spéciale à ce que l’implémentation informatique soit fidèle aux patterns décrits dans des études de psychologie expérimentale portant sur les expressions faciales humaines, incluant des règles liées à la combinaison d’expressions. En particulier, ils ont veillé à la façon dont les changements morphologiques pouvaient être représentés de façon continue. En psychologie cognitive, et avec la technique du morphing, Calder et al. (1997) ont exagéré chaque expression faciale par rapport à une photographie de la même personne exprimant une émotion neutre (c’est-à-dire une norme d’expression faciale neutre). Les visages provenaient de la base de données de visages en couleur de Matsumoto et Ekman (1988). Par ailleurs, White (2002) a utilisé quatre photographies de visages féminins issus de la base de données de visages en noir et blanc d’Ekman et Friesen (1976). Chacun de ces visages exprimait deux émotions différentes (parmi la joie, la colère, la peur et la tristesse). Il a construit des déformations d’ordre métrique et catégoriel, identiques à celles opérées par Cooper et Wojan (1996, 2000). Rappelons que les déformations métriques consistaient à surélever la position des deux yeux, tandis que les déformations catégorielles consistaient à surélever la position d’un seul œil. Les modifications métriques avaient pour conséquence d’allonger la taille du nez et de raccourcir la taille du front. Dans l’étude de White (2002), l’utilisation des déformations avait pour but, outre celui de répliquer les résultats relatifs à l’identité de Cooper et Wojan, de mieux comprendre le traitement des expressions faciales.