Introduction Générale

L’ Extraction de Connaissances à partir de Données (ECD) consiste à parcourir d’immenses volumes de données contenus dans une base, à la recherche de connaissances. C’est une discipline qui se situe à l’intersection de différents domaines tels que l’informatique, l’intelligence artificielle, l’analyse de données, les statistiques, la théorie des probabilités, l’optimisation, la reconnaissance de formes, les bases de données et l’interaction Homme-Machine,… Fayyad [1] donne une définition de l’ECD que la communauté scientifique francophone traduit de la manière suivante : L’ECD est le processus non trivial, interactif et itératif qui permet d’identifier des modèles valides, nouveaux, potentiellement utiles et compréhensibles à partir de bases de données massives.

Le terme processus signifie que l’ECD se décompose en plusieurs opérations, figure 1. Ces opérations peuvent être regroupées en cinq phases majeures :

La finalité de l’ECD est de pouvoir traiter des données brutes et volumineuses, et à partir de ces données d'établir des connaissances directement utilisables par un expert ou un non expert du domaine étudié.

Les techniques d’ECD deviennent de plus en plus prisées au sein du monde industriel. En effet, les promesses de l’ECD en terme de valorisation de l’information ne peuvent laisser insensibles les acteurs industriels. Tout d’abord parce que l’information apparaît, de nos jours, comme un élément stratégique déterminant. Ensuite parce que les avancées technologiques en informatique permettent d’augmenter les capacités de stockages et de calculs. Ainsi, si l'on considère comme exemple l'ensemble des tickets de caisse d'un supermarché sur une période 10 ans, il est aisé d'imaginer la quantité de données présentes, la diversité des caractéristiques, et donc la difficulté conséquente d'une exploitation de l'information présente. Pourtant, on dispose là d'une immense source d’information, à savoir une quantité suffisamment importante de données pour établir une classification pertinente de la clientèle ainsi que son comportement typique. Le processus d’ECD résout de manière efficace ces difficultés et fournit les connaissances attendues.

Cependant, le processus d’ECD ne se passe pas sans encombre. La taille des bases de données étant de plus en plus importante, l'amélioration de la qualité de représentation des données est devenu un problème majeur de l'extraction des connaissances à partir des données.

L'une des difficultés principales liée à la représentation des données est la dimension des données. Le problème de la dimension des données concerne le nombre et la qualité des variables descriptives caractérisant chacun des individus. Ce problème peut se résumer par la phrase de Liu et Motoda, [2], Less is more qui signifie que si l’on désire extraire de l’information utile et compréhensible à partir de nos données, il convient en premier lieu de retirer les parties non pertinentes.

Figure 1 Processus de l’Extraction de Connaissances à partir des Données.
Figure 1 Processus de l’Extraction de Connaissances à partir des Données.

L’utilisateur qui veut couvrir tous les aspects existants d’un problème particulier et obtenir une connaissance compréhensible définit et considère un grand nombre de variables. Or, parmi ces variables certaines seront inutiles. En effet, il est souvent difficile voire impossible de discerner les variables pertinentes des variables non pertinentes ce qui pousse l’utilisateur à s’emparer de toutes les variables disponibles. De plus, les sources de données peuvent être multiples et la fusion des données issues de chacune de ces sources conduit à la création d’un ensemble contenant des variables inutiles et redondantes.

La solution que l’on peut apporter à cette difficulté est la sélection d’un sous-ensemble de variables. La sélection de variables est un processus permettant l'élimination de variables inutiles et/ou redondantes et l'élimination du bruit pouvant être généré par certaines variables. Le processus d'apprentissage est accéléré et la précision prédictive des algorithmes d’apprentissage peut être améliorée. Aucune nouvelle variable n’est générée et certaines variables sont éliminées, ainsi l’espace de représentation des données est réduit.

La deuxième difficulté est la qualité des données brutes. La qualité d’apprentissage est fortement liée à la présence de variables discriminantes. Les variables composant l’espace de représentation des données ne sont pas forcément les mieux adaptées pour décrire le problème. Or, en l’absence de nouvelles informations disponibles, il convient de créer de nouvelles variables qui permettront d’expliciter l’espace de représentation.

La construction de variables permet de créer de nouvelles variables. Elle est le processus qui découvre les informations manquantes dans une relation entre variables et qui augmente l’espace des variables en créant des variables supplémentaires. Après le processus, un certain nombre de variables supplémentaires sont disponibles. Par exemple, les variables  longueur  et  largeur  dans un problème à deux dimensions peuvent entraîner la création de la variable  aire . La construction de variables est l’application d’un ensemble d’opérateurs booléens ou numériques à un ensemble de variables existantes, débouchant sur la construction d’une ou plusieurs nouvelles variables destinées à être utilisées pour la description de la variable endogène. La construction de variables augmente l’espace des variables en créant des variables supplémentaires. Cependant, aucune information extérieure à l’ensemble d’apprentissage n’est ajoutée lors du processus de construction.

Les travaux de cette thèse se situent au centre des préoccupations de l’ECD. Ils touchent essentiellement les problèmes liés à la phase de prétraitements des données du processus d’ECD. Nous nous intéressons aux problèmes de dimension et de  qualité  des données. Nous voulons grâce aux processus de sélection et construction de variables modifier l’espace de représentation des données afin d’en améliorer sa qualité et déterminer le moment où ces processus sont nécessaires.

Il nous semble important de tenir compte dans nos travaux de deux facteurs :

Nous nous plaçons dans un cadre d’apprentissage supervisé qui consiste à déterminer sur une base d’un nombre fini d’individus, la relation entre un ensemble de variables exogènes et une variable endogène.

Ces travaux ont été effectués dans le cadre d’un projet en collaboration avec France Telecom. Le but principal de ce projet était un tour d’horizon et une comparaison de l’ensemble des méthodes de sélection et de construction de variables. Aussi, cette thèse comporte un état de l’art pour chacun de ces processus particulièrement développé. Ces travaux ont été validés par la publication d’un ensemble d’articles (Voir Annexe).

Ce document s’organise de la manière suivante : Le premier chapitre introduit la formalisation et les définitions qui seront utilisées tout au long du document. Le chapitre 3 est entièrement consacré au processus de sélection de variables tandis que le chapitre 4 est dédié au processus de construction de variables. Le chapitre 5 aborde le problème lié à la détermination du moment où les processus de sélection et/ou de construction sont nécessaires.

Nous tenons également à préciser que les différentes expérimentations proposées dans ce rapport ont été possibles grâce à l’utilisation des logiciels libres : Sipina développé au laboratoire ERIC [3], Weka, [4], de l’Université de Waikato en Nouvelle-Zélandeet d’un logiciel mis au point au cours de ces travaux.