Université Lumière Lyon 2
Ecole doctorale : Informatique et information pour la société (EDIIS)
Faculté de Sciences économiques et de gestion
Laboratoire d’InfoRmatique en Images et Systèmes d’information (LIRIS)
Représentations hiérarchiques et discriminantes pour la reconnaissance des formes, l’identification des personnes et l’analyse des mouvements dans les séquences d’images
Thèse de doctorat en informatique
sous la direction de Serge MIGUET
Par décision du jury, cette thèse n’est pas diffusable
Soutenue le 11 juillet 2007
Devant un jury composé de :
Serge MIGUET, professeur à l’université Lyon 2
Jenny BENOIS-PINEAU, professeur à l’université Bordeaux 1
Monique THONNAT, directeur de recherches à l’INRIA de Sophia-Antipolis
Jean-Michel JOLION, professeur à l’INSA de Lyon
Patrick PÉREZ, directeur de recherche à l’INRIA de Rennes
Jean-Baptiste DUCATEZ, industriel

Résumé

L'analyse automatique de vidéos est un domaine qui a connu un essor fulgurant au cours des dix dernières années. L'augmentation exponentielle de la puissance des machines ayant ouvert la porte à des possibilités de traitements en temps réel des séquences d'images, les demandes pour des systèmes d'interprétation automatiques des événements d'une scène se sont multipliées. Pourtant, le niveau de confiance atteint par les systèmes limite encore la diffusion des solutions à grande échelle. En effet, bien que l'analyse de séquences d'images ou la vision artificielle correspondent à des thématiques de recherches dont l'initiation remonte au début des années 1980, les performances des méthodes sont encore loin de concurrencer les capacités d'interprétation du système visuel humain. Mettre au point des algorithmes robustes pour analyser des flux vidéos et détecter des événements dans l'objectif d'apporter une description sémantique d'une scène donnée correspond donc aujourd'hui encore à un problème largement ouvert. D'un côté, les images contiennent une sur-abondance d'informations, et la première difficulté à surmonter pour analyser les données consiste à définir un ensemble de caractéristiques pour en extraire le contenu pertinent. D'autre part, on se trouve confronté au problème du fossé sémantique qui apparaît entre les descripteurs bas niveau calculés et l'ensemble des représentations du monde et des concepts humains très abstraits. Nous proposons d'aborder le problème de l'analyse des séquences d'images autour de deux thèmes principaux : la lecture de plaques minéralogiques et l'analyse du mouvement humain, en nous focalisant sur l'interprétation de vidéos monoculaires et dans un contexte algorithmique proche du temps réel. La lecture de plaques minéralogiques est une problématique qui a suscité l'intérêt de la communauté scientifique et du monde industriel depuis longtemps, à la fois pour les thématiques de recherches soulevées par les questions de reconnaissance de formes que pour les applications pratiques qui en découlent. Une quantité importante de solutions logicielles est actuellement commercialisée sur le marché, à des prix abordables et présentant des taux de reconnaissance impressionnants. Pourtant, les performances observées dans les situations réelles sont nettement dégradées en pratique par un ensemble de conditions d'observation difficiles : éclairage variable, plaques sales, distance et orientations relatives de la caméra par rapport au véhicule, etc. La méthode que nous proposons se décompose autour des étapes suivantes : localisation de la plaque, binarisation, extraction des caractères, reconnaissance et moyennage temporel. Le coe ur de la technologie, constitué par la reconnaissance optique de caractères, est pris en charge par un réseau de neurones hiérarchique qui analyse la forme des descripteurs de Fourier des contours extraits sur chaque image binaire. Le découplage des deux niveaux logiques du classifieur permet un apprentissage fiable qui limite au maximum les phénomènes de sur apprentissage, et rend possible la reconnaissance de caractères altérés : contours internes bouchés, topologie inexacte etc. D'autre part, nous mettons en place à plusieurs points critiques de l'algorithme une coopération verticale entre niveaux logiques. Celle-ci permet à une couche donnée d'analyser la pertinence de l'interprétation effectuée aux niveaux inférieurs, offrant la possibilité de suivre plusieurs hypothèses en cas d'ambiguïtés. Malgré la simplicité apparente de la problématique et la nature relativement standard des caractères à identifier, l'identification des véhicules par l'interprétation du contenu de leur plaque minéralogique nécessite la mise en place de stratégies évoluées. A l'opposé, l'analyse du mouvement humain apparaît d'emblée comme un problème difficile. La nature complexe et articulée du corps humain, les auto-occlusions entre membres, la forte variabilité de l'apparence ou la faible observabilité des degrés de liberté en profondeur sont autant d'éléments qui rendent la détection, le suivi et l'interprétation du comportement des personnes dans les séquences d'images difficiles. La question a pourtant été intensivement étudiée et pour schématiser, on peut dire qu'il existe deux écoles différentes. Les premières approches, dites discriminantes, reposent sur une stratégie Bottom Up et sont la plupart du temps applicables en temps réel. Elles consistent proposer des méthodes où le suivi est initié par une étape de détection. Les secondes approches, dites génératives, consistent à modéliser de manière explicite la structure articulée humaine pour chercher à identifier la position des différents membres au cours du temps. Ces stratégies Top Down reposent la plupart du temps sur une initialisation manuelle, et la poursuite simultanée de plusieurs cibles est rarement garantie. L'approche que nous proposons se situe en quelque sorte à un niveau intermédiaire. Dans un premier temps, nous proposons une approche de détection et de suivi assez basique, reposant sur une extraction des régions en mouvement qui sont ensuite dynamiquement mises en correspondance au cours du temps. Cette partie de l'algorithme, qui ne tient pas compte de l'aspect déformable de la projection du corps humain dans l'image, permet cependant un traitement rapide et rend possible la détection de situations de fusion ou de séparation de régions. Ce premier niveau d'analyse est générique et est applicable à un type d'objet quelconque. Dans les cas où le suivi peut être assuré sans ambiguïté, nous passons à une échelle plus fine, en proposant une méthode pour détecter et étiqueter les différentes parties visibles du corps de chaque personne à partir de la silhouette extraite en mouvement. Cette étape est menée à bien par une technique de mise en correspondance entre un graphe calculé à partir du squelette 2D image et un modèle 3D du squelette humain. L'ensemble des candidats pour les membres est identifié en introduisant une information a priori qui fixe des contraintes d'assemblement, utilise uniquement l'information morphologique et topologique de la silhouette, et est donc applicable dans des conditions générales, indépendamment du point de vue, de la pose de la personne, de la géométrie ou de l'apparence des membres. Elle permet à chaque instant de capturer un ensemble de caractéristiques de forme, de couleur et de texture sur chaque membre, conduisant à la mise à jour dynamique d'un modèle d'apparence articulé pour chaque personne suivie. Ce dernier sera ensuite utilisé dans des situations difficiles pour effectuer une identification des personnes et assurer une poursuite robuste du suivi. L'approche propose donc de mettre à jour une caractéristique dont le contenu informatif sera ensuite rétro propagé au niveau de la détection région pour contraindre le suivi. L'approche dans son ensemble permet un fonctionnement temps réel, et utilise un niveau de détail adaptatif en fonction des difficultés rencontrées lors des différentes étapes. En ce qui concerne l'analyse du mouvement humain, nous proposons une approche dédiée à la détection de chutes dont la contribution se décompose en deux points. D'une part, nous proposons une étude de la pertinence d'un détecteur de verticalité calculé à partir d'une caractéristique image pour discriminer les postures couché et debout. Les propriétés établies permettent de montrer qu'on peut toujours garantir une identification correcte pour les poses debout, mais qu'un certain nombre de postures couchées ne seront pas détectées, et que ceci dépend directement de l'orientation relative de l'axe tête pied par rapport au plan image de la caméra. On montre alors qu'il est possible de lever l'ensemble des ambiguïtés pour les postures couchées en ajoutant une caméra supplémentaire dont le traitement est indépendant de la première. Le second point central de la détection de chutes repose sur l'utilisation d'un Modèle de Markov Caché Hiérarchique (HHMM) pour interpréer la séquence angulaire observée. L’analyse temporelle qui est effectuée à deux échelles temporelles différentes permet une sensibilité suffisante pour détecter les mouvements brusques comme les chutes, tout en assurant une robustesse au bruit par une vérification haut niveau. Les différrentes approches mises au point, aussi bien au niveau de la lecture de plaque que de l’analyse du mouvement humain ont montré la qualité et l’importance des approches discriminantes en terme de rapidité de calcul, et souligné l’importance des rétroactions génératives pour contraindre l’interprétation dans les situations équivoques.

Summary

The field of human motion analysis by means of computer vision technologies has known a huge increase over the last decade. Boosted by the new ability of the computers to process image sequences in real time, the requirement for systems being able to automatically monitor events in the world has been enlarged. Although these new solutions open promising applications, the level of confidence that is reached by the systems still prohibits their general broadcast. Image or video processing, artificial vision have known their infancy in the early eighties. However, after 25 years of research in these fields, the proposed technologies output performances that are still far from the capacity of the human brain visual interpretation. Developing robust algorithms to analyse image sequences is thus still an open problem. On the one hand, images contain an over-abundance of information's, and the first problem to face consists in identifying relevant features to extract a meaningful content. On the other hand, filling the semantic gap between low level images features and high level human concepts remains the most challenging task. We propose here to tackle the problem in the following aspects : Licence Plate Recognition and Human Motion Analysis, in a monocular and real time context. Licence Plate Recognition (LPR) has interested both the scientific community and the industrial world, because of the questions raised by the shape recognition as well as the number of interesting applications that can come from these solutions. A large amount of softwares is today proposed at very affordable costs and exhibiting impressive recognition rates. However, the recognition observed in real situations is sensibly decreased by various difficult acquisition conditions : variable lighting conditions, dirty plates, and variable distances and orientations between camera and vehicles. The proposed approach decomposes into the following steps : plate detection, binarization, character segmentation, shape classification and temporal averaging. The heart of the technology, corresponding to the Optical Character Recognition (OCR), is handled by a Hierarchical Neural Network which analyses the shape of the Fourier descriptors extracted from the contours of each binary image. Logically decoupling the two level of the Hierarchy makes it possible to reliably learn shape pattern during the training phase, limiting the risk of overfitting, and managing to recognize degradated characters (no inner contours, differences of topology). Moreover, we investigate the idea of back propagating the results of a given level to lower ones in order to disambiguate competitive hypotheses. Despite its apparent simplicity, LPR requires in fact to carry out sophisticated strategies. At the opposite, human motion analysis immediately appears to be a complicated task. The articulated composition of the human body, auto occlusions of the limbs, strong variability of their appearance or the weak observability in depth make the detection, tracking or motion analysis of humans difficult. The problem has however intensively been addressed, and we can classify the approaches in two main groups. Bottom Up approaches first rely on extracting low level image features without explicit use of a human model, assembly constraints arising in a second step. These methods most of the time manage real time processing. Top Down approaches explicitly model the human body, and search for the best parameters settings with respect to a given image to model measurement. These strategies essentially require manual initialization, and tracking several humans is not always satisfied. Our approach can be considered intermediate with respect to the former archetypes. Firstly, we extract moving regions from each image and track them over time using a simple dynamical matching approach. This step is applicable to any type of object and is very fast. Additionally, it makes it possible to detect split and merge situations. When the tracking can be successfully achieved by this strategy, we analyse the shape silhouette at a finer scale, aiming at detecting and labelling body parts. We propose to perform this task by matching an image graph generated from the skeleton silhouette and a model graph derived from the articulated human body structure. Only morphological and topological information is encoded in the graph, making the approach independent of the pose of the person, the viewpoint, the geometry or the appearance of the limbs. The body parts labelling makes it possible to update an appearance model for each limb, capturing shape, color and texture properties. The appearance model is used in difficult situations to identify people. Thus, the feature extracted during each people tracking is back propagated to enforce the detection step. Concerning human motion analysis, we propose an approach dedicated to fall detection, whose contribution decomposes into two points. Firstly, we propose to analyse the relevance of a proposed verticality detector, computed from an image feature and that is devoted to discriminating standing from lying poses. We prove that we can ever correctly identify standing postures. This property does not remain for lying ones, but we point out the fact that the misclassification is directly related to the relative direction between the feet-head axis and the camera image plane. We then demonstrate that the ambiguities can be resolved by using an additional camera whose processing is independent of the first one. The second contribution corresponds to the application of a Hierarchical Hidden Markov Model (HHMM) to classify the pose sequences. The analysis is performed at two different temporal scales, making it possible to detect sudden changes as falls, as well as being robust to noise in fast motions by incorporating high level verification. The different proposed approaches for License Plate recognition or human motion analysis have proved the efficiency of Bottom Up approaches for a real time purpose, and pointed out the importance of generatives back propagations to revolve ambiguous situations.