Évolution de schémas dans les entrepôts de données : mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Contrat de diffusion

Ce document est diffusé sous le contrat Creative Commons « Paternité – pas d’utilisation commerciale - pas de modification » : vous êtes libre de le reproduire, de le distribuer et de le communiquer au public à condition d’en mentionner le nom de l’auteur et de ne pas le modifier, le transformer, l’adapter ni l’utiliser à des fins commerciales.

Résumé

Cette thèse a été réalisée dans le cadre d’une Convention Industrielle de Formation par la REcherche (CIFRE) en collaboration avec l’établissement bancaire LCL- Le Crédit Lyonnais. Elle s’inscrit dans le domaine des entrepôts de données. Ces derniers constituent un élément incontournable de l’architecture décisionnelle, sur lesquels reposent alors des outils permettant l’analyse en ligne des données (OLAP : On Line Analytical Processing) pour l’aide a la décision. Le schéma de l’entrepôt, qui détermine les possibilités d’analyse, est conçu en fonction des sources de données disponibles d’une part et des besoins d’analyse d’autre part. Or, il est difficile d’être exhaustif dans le recensement des besoins d’analyse des utilisateurs au moment de la conception du schéma de l’entrepôt. En outre, de nouveaux besoins individuels peuvent émerger. L’émergence de nouveaux besoins d’analyse individuels fait alors apparaitre la nécessite d’une personnalisation des analyses, qui placerait l’utilisateur au cœur du processus décisionnel. Dans cette thèse, nous proposons une solution à la personnalisation des analyses dans les entrepôts de données. Cette solution se base sur une évolution du schéma de l’entrepôt guidée par les utilisateurs. Il s’agit en effet de recueillir les connaissances de l’utilisateur et de les intégrer dans l’entrepôt de données afin de créer de nouveaux axes d’analyse. Afin de développer cette solution, nous avons propose quatre contributions majeures : 1) Notre première contribution consiste en la définition d’un modèle formel d’entrepôt de données évolutif, base sur des règles «si-alors», que nous appelons règles d’agrégation. Ce modèle est compose d’une partie «fixe» et d’une partie «évolutive». La partie fixe est constituée de la table des faits et des tables de dimension qui lui sont directement reliées. La partie évolutive est composée d’un ensemble de hiérarchies de dimension qui sont mises à jour. Pour assurer la généricité de notre approche, nous proposons également un méta-modèle qui permet de décrire tout entrepôt de données évolutif. 2) Notre modèle d’entrepôt évolutif est soutenu par une architecture qui permet de modéliser le processus de personnalisation. Cette architecture comprend quatre modules : – un module d’acquisition des connaissances utilisateurs sous forme de règles d’agrégation ; – un module d’intégration des règles d’agrégation dans l’entrepôt de données ; – un module d’évolution du schéma ; – un module d’analyse permettant a l’utilisateur de réaliser des analyses sur le nouveau schéma. 3) Pour mettre en œuvre cette architecture globale, nous proposons un modèle d’exécution avec l’approche relationnelle, qui vise à gérer l’ensemble des processus lies a l’architecture globale. Il est fonde sur la transformation des règles d’agrégation en une table relationnelle de mapping qui permet le stockage, la vérification des règles, la création des niveaux de hiérarchie. 4) Nous nous sommes par ailleurs intéresses a l’évaluation de la performance de notre modèle d’entrepôt de données évolutif. Or, l’évaluation de la performance des modèles est généralement basée sur une charge (ensemble de requêtes utilisateurs). Lorsqu’un changement au niveau du schéma de l’entrepôt de données se produit, la charge doit être mise à jour. Dans ce contexte, nous proposons ici une méthode de mise à jour incrémentale de la charge. Pour valider nos différentes contributions, nous avons développe la plateforme WEDriK (data Warehouse Evolution Driven by Knowledge), qui permet la personnalisation des analyses. Elle se base sur un entrepôt de données évolutif stocke dans le SGBD relationnel Oracle d’une part et sur une interface Web programmée en PHP d’autre part. Les problèmes poses dans ce mémoire sont directement issus de la réalité de l’entreprise LCL avec laquelle nous avons collabore. LCL a constitue un véritable terrain d’application pour mettre en œuvre nos solutions de personnalisation. Nous nous sommes également intéresses a la personnalisation dans sa définition plus classique, dans le cadre de la gestion des interfaces et de la recherche d’information, au travers du travail d’ingénierie que nous avons réalise pour cette entreprise durant le développement d’une plateforme pour la gestion des demandes de marketing local : la plateforme MARKLOC.

Mots-clés : entrepôt de données, évolution de schéma, hiérarchie de dimension, mise a jour, personnalisation, utilisateur, règles d’agrégation, analyse en ligne, per- formance, évolution de charge.