2.4.1. L’approche computationnelle de Marr

La théorie de Marr (1982) a dominé pendant de nombreuses années l’approche computationnelle. Selon cette théorie, trois principales étapes permettraient le traitement d’une image en vue de sa reconnaissance. Dans la lignée des physiologistes, les chercheurs dans le domaine de la vision computationnelle ont proposé l’existence d’une première étape d’extraction des contours par le biais de détecteurs de lignes. Pour Marr (1982), cette première étape appelée l’ébauche primitive (« Primal Sketch »), se scinde en deux parties : l’ébauche primitive brute (« Raw Primal Sketches ») et l’ébauche primitive complète (« Full Primal Sketches »). L’ébauche primitive brute permettrait l’extraction de bordures, de barres et de taches par leurs localisations dans l’espace et leurs orientations. L’ébauche primitive complète est une version plus élaborée de l’ébauche primitive brute car elle résulte d’opérations comme le groupement des contours. Ce premier pas permet le traitement des contours d’une image, mais la description d’une image ne se limite pas à cet aspect. Une deuxième étape était ensuite décrite comme une description de la surface et de la forme centrée sur l’observateur. Cette étape était appelée : l’ébauche 21/2 (« 21/2 Sketch »), et était obtenue par une analyse de la profondeur et du mouvement, mais également grâce aux structures assemblées dans l’ébauche primitive. Une étape essentielle dans le traitement visuel est la reconnaissance d’objets, et pour connaître à quel objet une forme appartient, une troisième étape était nécessaire : la représentation en modèle 3D (« 3D Model Representation »). Elle correspond à une étape de traitement où des représentations d’objets connus sont activées. La théorie de Marr implique un certain nombre de niveaux de représentations, dont chaque étape a une description symbolique de l’information transmise par le système physiologique.

L’algorithme conçu par Marr et Hildreth (1980) pour générer l’ébauche primitive brute commence par la transformation d’une représentation de l’image en une série de représentations indépendantes à différents niveaux. L’algorithme « zero-crossing » permet de détecter les contours d’une image.

Marr et Hildreth (1980) ont proposé que l’image soit traitée par un ou plusieurs filtres. Ces filtres utilisent des fonctions gaussiennes de différents écart-types (ou largeurs) et amplitudes (ou hauteurs), et le but de cette première opération est de compresser l’information en diminuant la gamme des fréquences spatiales dans l’image. Par exemple, plus un filtre gaussien est large et plus la bande passante transmise sera basse. Cette première opération est notée : G*I, où G correspond aux filtres gaussiens et I à l’image. Une seconde opération est réalisée par l’algorithme de Marr et Hildreth (1980) : la localisation des changements d’intensité dans les multiples représentations de l’image, se fonde sur le calcul de la dérivée seconde d’un filtre gaussien, dont la forme s’apparente à celle d’un champ récepteur, cet opérateur est appelé le 2 (ou Laplacien). Le Laplacien est alors appliqué à chacune des valeurs fournies par les filtres gaussiens. Le résultat correspond à un ensemble de séries de valeurs du Laplacien notées 2G*I. L’image de départ est montrée dans la Figure 21a, et le résultat de la convolution est présenté dans la Figure 21b. Les valeurs numériques de l’image filtrée par le 2G peuvent être positives ou négatives, et le résultat constitue une échelle allant du blanc (positif) au noir (négatif) en passant par plusieurs niveaux de gris. La Figure 21c présente l’image de façon binaire: noire (-1) pour des valeurs de luminance négative et blanc (+1) pour des valeurs de luminance positive. La Figure 21d indique les positions dans l’image où les différents changements d’intensité étaient localisés .

Figure 21 : Détection des contours par l’étape « zero-crossing » de Marr et Hildreth (1980). La figure située en haut à gauche représente l’image naturelle, et les trois autres figures représentent les différentes étapes du « zero-crossing ».

L’ébauche primitive brute est une représentation symbolique de l’image élaborée au moyen de quatre éléments : les segments de bordure, les barres, les terminaisons et les taches, chacun étant doté de propriétés d’orientation, de contraste, de taille et de position. Ces quatre représentations permettent de signaler différents types d’intensités. Un exemple d’ébauche primitive brute est présenté à la Figure 22. Cette ébauche ne décrit pas uniquement les bords de l’objet mais aussi les éléments de texture au sein de la surface. Les Figures 22a et 22b indiquent l’étape finale du zero-crossing pour deux différentes tailles de 2G. Les Figures 22c, 22d et 22e montrent respectivement, les taches, les contours et les barres qui sont trouvés par les différentes tailles de filtres lors de l’étape du zero-crossing.

Figure 22 : L’ébauche primitive brute de Marr (1982). L’image de la Figure 1a a été analysée par l’algorithme « zero-crossing » de façon locale (a) et globale (b). En d’autres termes la taille du filtre DoG variait. Ces résultats sont intégrés pour former une carte symbolique de contours orientés (d). D’autres analyses permettent la détection de tache (c) et de barres (e) pour différentes localisations.

L’ébauche primitive complète est dérivée de l’ébauche primitive brute par une opération d’organisation, pour extraire une structure globale à partir de l’ébauche primitive brute qui est désordonnée. L’étape suivante consiste alors à grouper les éléments de l’image en un tout, et à séparer les régions qui différent les unes des autre par leur texture. La première étape de l’ébauche primitive complète est d’attribuer des marques d’emplacement à des structures ou des agrégats de structures issus de l’ébauche visuelle brute. Puis, ces marques d’emplacement sont à leur tour rassemblées pour former des unités plus larges, et sont définies par la position des taches, par la terminaison d’un bord ou d’une barre. Le rassemblement de ces marques d’emplacement peut s’effectuer par le regroupement des marques proches sur la base de changement de la densité spatiale, par le rassemblement curvilinéaire qui génère des contours en joignant des éléments alignés et proches les uns des autres, et finalement par un rassemblement d’éléments partageant la même orientation. Le rassemblement des marques d’emplacement repose donc sur la proximité locale (des éléments adjacents sont combinés) et la similarité (des éléments orientés de façon similaire sont combinés) ; des considérations plus globales peuvent influencer la détection des structures. En effet, dans le cas d’une courbe, un principe de « fermeture » pourrait permettre à deux segments d’être joints, et ce, même pour des contrastes différents. La théorie de Marr (1982) incorpore la plupart des principes de l’école de la Gestalt.

Marr (Marr, 1982 ; Marr & Nishihara, 1978) considère que le but du traitement visuel précoce est la description d’une surface visible, de telle manière que leurs dispositions et arrangements soient centrés par rapport à l’observateur. Il appelle cette description : l’ébauche en 21/2D. Elle se construit à partir de l’ébauche primitive complète. Au cours de cette étape, l’orientation des surfaces serait traitée de façon précise. Pour Marr (1982), l’ébauche 21/2D est constituée d’une série de représentations de type vectoriel (voir Figure 23) : la longueur du vecteur indique l’oblicité de cette partie de la surface et l’orientation du vecteur représente la direction dans laquelle est inclinée la surface. De plus, la distance par rapport à l’observateur serait indiquée par une échelle scalaire.

Figure 23 : Ebauche 21/2D d’une tasse. A cette étape, l’image est représentée par les différentes orientations de la surface. Les différentes orientations de la surface sont décrites par des cercles imaginaires et l’inclinaison du vecteur à l’intérieur de chaque cercle.

La représentation en modèle 3D, qui constitue la dernière étape du modèle de Marr (1982), permet la reconnaissance d’objets. Un axe est tout d’abord défini au centre de l’objet, puis un cylindre est déterminé autour de cet axe. Les objets peuvent alors être décrits par un ou plusieurs « cylindres généralisés ». Ainsi, lorsqu’un objet est composé de plusieurs cylindres, la représentation comportera plusieurs axes. Par exemple, un corps humain peut être décrit comme un ensemble de cylindres généralisés correspondant au tronc, à la tête, aux bras et aux jambes. Ces différents composants, représentés par des cylindres ont leurs propres axes et contribuent à l’axe global du corps humain. Un exemple est montré à la Figure 24. Le système de description de Marr (1982) a surtout été développé pour la reconnaissance d’objets chez des machines, et aucune validation expérimentale n’a été réalisée chez l’homme ou l’animal. Biederman (1987) a enrichi le modèle de Marr en apportant des données empiriques.

Figure 24 : Modèle hiérarchique du stade de la représentation en modèle 3D pour un être humain. Chaque rectangle montre l’axe principal de l’objet (à gauche), et les axes de ses composants (à droite).

Marr (1982) a formulé une hypothèse sur la localisation corticale des trois étapes de son modèle. L’aire V1 serait la région de l’ébauche primitive, tandis que l’ébauche en 2,5D et la représentation 3D seraient liées aux aires V4, MT et IT. Toutefois, le modèle de Marr (1982) n’explique pas comment se font les différentes transitions entre les trois étapes décrites (Pinker, 1984). Pour Palmer (1999), le processus de remplissage d’une surface n’est pas incompatible avec le modèle de Marr (1982), car ce processus pourrait survenir à une étape intermédiaire avant l’élaboration d’une représentation volumétrique complète.