2.8 La qualité des logiciels de fouille visuelle de données

2.8.1 La qualité des modèles de données : estimation de l’erreur

L’analyse des données est une étape du processus d’ECD. A cette étape, on dispose de données structurées. On peut procéder soit à une classification, soit à une estimation, soit à une prédiction, soit à une segmentation, soit à une recherche de règles d’association dans ces données. L’objectif de ces traitements est de retrouver un modèle des données. On parle d’apprentissage supervisé ou d’apprentissage non supervisé selon que les exemples d’apprentissage soient étiquetés ou non.

L’analyse de données aboutit à la création du modèle des données, l’étape suivante consiste en l’évaluation de la qualité de ce modèle. L’évaluation permet de mesurer la justesse et la précision du modèle, c'est-à-dire de voir dans quelles mesures le modèle confirme les hypothèses de départ. Il est aussi question de savoir si le modèle est facile à comprendre, valide sur de nouvelles données, utile, nouveau. Dans le cadre de nos travaux, nous nous situons dans le domaine de l’apprentissage supervisé (les exemples d’apprentissage sont étiquetés) et plus particulièrement de la classification supervisée.

L’évaluation de la qualité du modèle des données consiste à estimer l’incertitude autour de l’estimateur d’erreur future. L’erreur de prédiction est la mesure standard de qualité des modèles d’apprentissage supervisé. L’estimation d’erreur en analyse de données a deux objectifs : la validation qui permet d’ajuster des paramètres de l’algorithme utilisé et le test qui permet d’évaluer les performances et de comparer les algorithmes.

L’estimation d’erreur peut être basée sur des échantillons ou des pénalités. En ce qui concerne l’estimation basée sur des échantillons, on peut rechercher l’erreur de test avec la méthode de holdout, la validation simple. On peut aussi procéder à une validation croisée.

L’estimation basée sur des pénalités quant à elle utilise des critères tels que AIC (Akaike information criterion), BIC (Bayesien information criterion) ou MDL (minimum description length).

Une autre méthode naïve d’évaluation de la qualité du modèle des données serait d’utiliser tous les exemples d’apprentissage pour entraîner et calculer le taux d’erreur sur cet ensemble d’entraînement. Mais, certaines méthodes d’apprentissage tendent à s’ajuster aux données d’entraînement. Il est donc nécessaire d’avoir un ensemble de test indépendant de l’ensemble d’entraînement pour mesurer le taux d’erreur. Des méthodes de ré échantillonnage peuvent donc être utilisées pour obtenir un estimateur non biaisé. Lorsque l’on dispose de très peu d’échantillon, il est difficile de déterminer si le taux d’erreur obtenu est précis ou si la situation dans laquelle on aboutit est due au hasard, des méthodes telles que le leave one out ou la validation croisée peuvent être utilisées.

Dans le domaine beaucoup plus spécifique de la classification supervisée qui nous intéresse, l’évaluation de la qualité des modèles d’analyse de données se fait suivant deux approches : la validation croisée et le boostrap. L’idée de ces deux méthodes est d’estimer le taux d’erreur de classification. A cet effet, on dispose d’un ensemble d’entraînement (apprentissage) et un ensemble de validation (test). Soit D un ensemble de donnée et x un entier. Le principe de la validation croisée est le suivant : découper E en x parties égales (D 1 ,…,D x ), pour tout D i , construire un modèle M avec l’ensemble D-D i , évaluer l’erreur e i de M avec D i , retourner la moyenne des erreurs e i = i =1 x e i /x.

Soit un ensemble d’entraînement T de n éléments, le principe de l’estimation avec Bootstrap est le suivant : choisir K ensembles de n éléments avec remise à chaque sélection. Calculer le taux d’erreur et sa variance avec les éléments non sélectionnés pour l’entraînement.

Dans le processus de validation croisée, les données sont divisées de manière répétitive en un ensemble d’apprentissage et un ensemble test sur lequel la précision est mesurée. En général, une fourchette de l'ensemble de départ est utilisée pour l'apprentissage et le reste pour le test. Ce processus est répété n fois et la précision est la moyenne des précisions obtenues pour chaque test.

L’erreur de prédiction obtenue par validation croisée ou boostrap est la mesure standard pour la mesure de la qualité des modèles d’apprentissage. Cette mesure propre au domaine de l’ECD ne permet pas par exemple d’évaluer la qualité de l’interface utilisée pour la fouille de données encore moins l’acceptabilité de cette interface. Nous pensons que l’erreur de prédiction est une condition nécessaire mais pas suffisante pour juger de la qualité des outils de FVD. A cet effet, nous allons passer en revue dans la section 2.8.2 les méthodes utilisées en interaction homme machine, génie logiciel et ergonomie cognitive. Si l’on se réfère à la définition de la qualité des logiciels, les méthodes décrites dans cette section font partie des facteurs internes de qualité. Pour terminer, cet état de l’art, nous présentons d’autres approches d’évaluation de facteurs internes de qualité des logiciels. En visualisation pour la fouille de données, les travaux de [Grinstein et al, 1997] ont permis l’évaluation qualitative experte et fonctionnelle des méthodes de représentation graphique de données par rapport à la capacité mémoire des ordinateurs, à leur vitesse d’exécution et à leurs capacités graphiques. Il existe aussi des travaux traitant de l’analyse qualitative d’outils en analyse de données [King et al, 1998], [Collier et al., 1999]. Cette analyse concerne les aspects techniques des algorithmes (performances, temps d’exécution, précision). Pour les besoins de ce type d’évaluation, des efforts de création d’entrepôts de données ont été l’objet des projets tels que l’UCI Machine Learning Repository [Blake et Merz, 1998], le Kent Ridge Bio Medical Dataset Repository [Finyan et Huiqing, 2002], Statlog [Metal, 2005].