Conclusions et perspectives

La phase de prétraitement est une étape essentielle du processus d’Extraction des Connaissances à partir des Données. Elle permet d’extraire l’information utile des données. Les travaux de cette thèse se situe essentiellement au sein de la phase de prétraitement des données du processus d’Extraction de Connaissances à partir des Données. Nous nous sommes intéressés aux problèmes qui concernent les variables initiales appartenant à l’ensemble des données brutes collectées lors de la phase de la phase de compréhension du domaine étudié.

Tableau 1 Synthèse des contributions.
Problèmes liés à la phase de prétraitement des données Solutions proposées
Dimension des données brutes Méthode de sélection variables
Qualité des données brutes Méthode de construction de variables
Détermination du moment où il est nécessaire prétraiter les données Double indice

Le chapitre 2 répond au problème de dimension des données grâce au développement d’une méthode de sélection des variables. Nous sommes partis du constat que les méthodes myopes fournissaient des résultats aussi satisfaisants que les autres méthodes de sélection tout en étant très rapides et facilement utilisables. Le seul problème réside dans la forme des résultats que ces méthodes produisent.

Le principe sous-jacent de notre méthode de sélection est lié à l’agrégation des préférences. Nous avons voulu que l’utilisateur expert ou non expert du domaine étudié puisse utiliser cette méthode. Pour cette raison, notre méthode est sous la forme d’une  méta-méthode . L’utilisateur a ainsi la possibilité de choisir un ensemble de critères myopes. S’il ne sait lesquels sélectionner, nous lui proposons un ensemble de dix critères qui nous avons employés lors des expérimentations. Les différents critères sont appliqués aux variables initiales. Chaque critère fournit une liste de variables classées en fonction de leur pertinence. Afin d’obtenir comme résultat un sous-ensemble de variables, nous utilisons une méthode d’agrégation des préférences basée sur une notion de préférence large. Nous sommes alors en présence d’une liste de sous-ensembles de variables classés en fonction de la pertinence des variables les composant. L’utilisateur est de nouveau libre de choisir la forme du résultat : soit il préfère conserver cette liste de sous-ensembles afin d’y apporter sa connaissance, soit il désire obtenir un sous-ensemble de variables  optimal . Dans ce dernier cas, nous nous plaçons dans une approche de type enveloppe et utilisons l’algorithme d’apprentissage pour déterminer le sous-ensemble de variables considéré comme optimal par notre méthode.

Les expérimentations nous ont permis de conclure que notre méthode de sélection permet d’améliorer dans la plupart des cas la qualité d’apprentissage et de garder une certaine stabilité du modèle. La taille de l’espace de représentation se retrouve réduite. Ainsi notre méthode est rapide et efficiente.

Cependant, nous aimerions l’améliorer par la prise en compte des résultats d’autres méthodes de sélection. Ces méthodes devront de préférence avoir un fondement théorique différent de celui de notre méthode : nous pensons en priorité à des méthodes telles que MIFS, les méthodes utilisant les algorithmes génétiques ou les méthodes utilisant des réseaux de neurones. Les méthodes doivent être relativement rapides et s’adapter à tous types de problèmes. Et ainsi, les variables qui seront sélectionner devront être considérées comme pertinentes par l’ensemble des méthodes de sélection choisies.

Le chapitre 3 s’interroge sur les problèmes liés à la  qualité  des données en proposant une méthode de construction de variables. Cette méthode est basée sur le principe de l’analyse topologique des arbres d’induction.

L’ensemble des règles qui vont nous servir de base de construction sont générées par l’application de l’arbre d’induction ID3 pour lequel la contrainte liée au gain d’information minimal a été supprimée. Pour chaque règle, une variable intermédiaire est créée sous la forme d’une conjonction des éléments formant la prémisse de la règle. Les variables intermédiaires sont alors regroupées en fonction de la conclusion de la règle qui leur est associée. Les nouvelles variables qui seront ajoutées à l’espace de représentation des données peuvent maintenant être construites. Elles sont sous la forme de disjonctions des variables intermédiaires. Les variables construites sont de type booléen et leur nombre est égal au nombre de classes de la variable endogène.

Notre méthode est relativement rapide et efficiente. En effet, les expérimentations montrent que la qualité d’apprentissage est améliorée après le processus de construction grâce à une modification de l’espace de représentation. La taille de cet espace s’en trouve augmenter mais de manière non exagérée. Les modèles conservent également une certaine stabilité.

Dans nos travaux futurs, nous pensons nous tourner vers une approche se rapprochant plus de l’utilisateur, c’est à dire lui laissant plus de liberté sur le choix des paramètres de notre méthode. Nous voudrions que l’utilisateur puisse choisir l’arbre d’induction qui sera utilisé pour la génération de la base de construction. Pour cela, nous lui proposerons une liste d’arbres que nous aurons au préalable paramétrés afin d’obtenir le même type de résultats fournis par ID3 libéré de sa contrainte du gain d’information minimum.

Le double indice permettant de déterminer le moment où il est nécessaire de construire des variables est le travail le moins abouti de cette thèse. Le chapitre 4 propose un double indice qui étudie respectivement l’apport informationnel des données en apprentissage supervisé et la structure intrinsèque des données en non supervisé. Ce double indice est basé sur le coefficient Kappa. Le coefficient Kappa permet de mesurer le degré d’accord entre un jugement théorique et un jugement observé. Nous utilisons le coefficient Kappa afin de comparer d’une part le jugement d’un algorithme d’apprentissage supervisé et celui de la variable endogène et d’autre part le jugement d’un algorithme d’apprentissage non supervisé et celui de la variable endogène. La confrontation de ces deux indices nous permet de déterminer si la construction de variables est indispensable.

Nous pouvons présenter un système permettant l’ optimisation  de la phase de prétraitement. Ainsi la phase de prétraitement s’organise de la manière suivante : le processus de sélection de variables est appliqué ; ensuite le double indice est calculé pour le sous-ensemble de variables sélectionnées. Selon les valeurs du double indice, le processus de construction peut être soit conseillé, soit recommandé, soit considéré comme indispensable ou inutile.

Pour l’instant, le processus de sélection de variables est toujours appliqué. Un indice permettant de savoir s’il est nécessaire de sélectionner et/ou de construire des variables permettrait d’optimiser et d’améliorer la phase de prétraitement et par la suite la phase de fouille de données.