3.1 Conceptions théoriques de MArr (1982) et Biederman (1987)

La conception théorique de MArr (MArr et Nishihara, 1978; MArr, 1982) suggère une décomposition des processus de traitement visuel en trois étapes d’analyse, chacune correspondant à un degré différent d’abstraction. Ce modèle propose une analyse hiérarchique visant à décrire les objets indépendamment du point de vue de l’observateur de manière à ce qu’ils soient reconnus quelles que soient les conditions d’observation.

La première étape de traitement correspond au codage de l’intensité de chacun des points constituant l’image rétinienne et aboutit à l’élaboration d’une ’ébauche primaire grossière’ (raw primal sketch) puis d’une ’ébauche primaire’ (primal sketch) du stimulus, l’ébauche primaire étant construite par groupement des zones de changement des gradients d’intensité lumineuse et par délimitation des contours (via un codage de la densité et de la colinéarité). A partir des informations obtenues sur les surfaces, le système est à même d’extraire un certain nombre d’informations relatives à la structure tridimensionnelle de l’objet pour élaborer une ’ébauche en 2.5 dimensions’ (2.5 D representation). Ces transformations permettent de percevoir l’orientation et la profondeur des objets mais leurs représentations demeurent, à ce stade de l’analyse, étroitement dépendantes du point de vue de l’observateur. Ce n’est qu’à la fin de la dernière étape de traitement qu’une représentation tridimensionnelle (3D representation), centrée sur l’objet, est construite permettant ainsi d’assurer une représentation constante de l’objet et de le reconnaître quel que soit le point de vue duquel il est observé. Cette dernière étape permet d’extraire les propriétés invariantes des objets et de construire une représentation indépendante de leur position, de leur distance, et de leur orientation par rapport à l’observateur.

MArr suggère un codage des représentations en trois dimensions sous la forme de volumes simples (cônes) organisés d’une manière hiérarchique (emboîtée) pour former une représentation ’structurale’ de l’objet correspondant à une vue canonique qui met en évidence l’axe principal et les détails locaux caractéristiques de l’objet mais qui ne représente pas nécessairement sa vue la plus fréquente ou la plus conventionnelle dans la vie quotidienne (Figure 9). Selon MArr, l’ensemble de ces transformations pourraient être accomplies en environ 100 ms. Si cette théorie rend assez bien compte de la reconnaissance de catégories d’objets, comme celle des visages par exemple (Figure 10), elle ne prévoit toutefois pas la reconnaissance d’exemplaires particuliers au sein d’une catégorie. Une limitation du modèle de MArr serait donc son incapacité à expliquer la reconnaissance d’objets à partir seulement de certains éléments ou détails caractéristiques.

Biederman (1987) a étendu les théories de MArr en proposant une reconnaissance des objets sur la base d’une partie seulement de leurs composants particulièrement saillants. L’idée d’une représentation perceptive finale de l’objet formée de volumes élémentaires et indépendante du point du vue de l’observateur, issue du modèle de MArr, est conservée. Si les principes généraux du modèle de Biederman sont assez analogues à ceux du modèle de MArr, deux particularités sont toutefois à noter. D’une part, à l’issue de la première étape de traitement, correspondant à la détection dans l’espace bidimensionnel des propriétés dites ’non accidentelles’ de l’objet, le sujet attribuerait de façon automatique ces propriétés à l’espace tridimensionnel. D’autre part, ces propriétés non accidentelles (colinéarité, curvilinéarité, symétrie, parallélisme, cotermination de lignes, etc.) seraient organisées de la sorte que l’objet soit segmenté en composants. Ainsi, Biederman propose que tout objet corresponde à des assemblages, plus ou moins complexes, de formes volumétriques de base, appelées géons (abréviation en anglais de ’ions géométriques’), analogues aux cônes généralisés de MArr.

Figure 9. Exemples de représentations 3D d’êtres vivants et illustration d’une décomposition hiérarchique d’une représentation 3D d’Homme incluant les axes d’orientation et l’agencement des différents cônes (d’après MArr et Nishihara, 1978).

Ces géons seraient caractérisés par quelques paramètres simples, tels que leur axe (droit ou courbe), leur section transversale (symétrique ou non), leur taille (constante ou non) limitée par un bord (droit ou courbe). Un ensemble de 36 géons serait suffisant pour prétendre coder tout objet du monde environnant (Figure 11).

Figure 10. Modèle d’une représentation faciale en deux dimensions. (a) Visage entier avec l’axe d’orientation déterminé par l’axe de symétrie; (b) - (e) Principaux traits faciaux: front, oreilles, bouche, yeux (d’après MArr, 1982).

Figure 11. Représentation des 36 géons, ou volumes de base, permettant la recomposition de tout objet issu du monde environnant (d’après Biederman, 1987).

Le modèle de Biederman suggère une analogie intéressante avec les connaissances issues des études sur le langage parlé indiquant que toute production orale résulte d’un agencement précis de seulement une trentaine de phonèmes différents.

Les théories visuelles de MArr et Biederman ont eu pour caractéristique essentielle de rendre compte de la reconnaissance catégorielle des objets. Elles ont par ailleurs permis d’envisager une conception modulaire du traitement de catégories d’objets particuliers pour l’Homme, qui seront évoqués dans les paragraphes suivants.