1.3.3.2 UserClassifier de WEKA

Le module UserClassifier de WEKA est une implémentation de PBC qui utilise aussi des matrices 2D pour la construction interactive d’arbres de décision. UserClassifier à l’étape initiale de présentation de données ne permet pas d’avoir une vue globale de l’ensemble de données à traiter. Une seule matrice 2D est présentée l’écran. Pour le traitement de grands ensembles de données, la notion de contexte est perdue, il n’est pas possible de visualiser toutes les paires possibles d’attributs en même temps à l’écran. Moyennant des efforts, il est possible d’accéder à toutes les paires de combinaison possibles d’attributs une par une, ce qui n’est pas le cas avec CIAD qui ne peut aller au-delà d’un certain nombre de dimensions (limite dûe à l’utilisation de la représentation sous forme de matrice de matrices de scatter plot). Les coupes opérées avec le module UserClassifier sont rectangulaires, polygonales ou alors sous forme de polylignes (voir la figure 1.24).

Figure 1.24 Représentation et construction interactive du modèle de données avec UserClassifer de WEKA
Figure 1.24 Représentation et construction interactive du modèle de données avec UserClassifer de WEKA

UserClassifier hérite de tous les inconvénients de la représentation graphique sous forme de matrice de scatter plot, notamment, l’impossibilité de traiter des ensembles de données pourvus d’un nombre élevé d’individus. De plus, il n’existe pas de mécanisme d’aide aux utilisateurs durant la construction du modèle des données.

Les différentes variantes du modèle de Ankerst montrent aussi que l’étape de construction du modèle de données est suivie d’une étape de post traitement au cours de laquelle l’utilisateur peut avoir recours aux techniques de visualisation. A cet effet, il existe des techniques de visualisation telles que CUBEVIS [Poulet, 2001] ou Grand tour [Asimov, 1985]. Nous nous limitons ici à l’étape de construction du modèle de données.

Le modèle de tâche en FVD montre que la construction du modèle de données peut se faire de façon automatique (deux premières variantes du modèle de Ankerst) ou alors de manière interactive (troisième variante du modèle de Ankerst). Cet état de l’art est essentiellement basé sur la construction interactive du modèle de données qui possède de nombreux avantages par rapport aux algorithmes automatiques couplés ou non aux méthodes de représentation graphique. L’exécution des algorithmes automatiques d’analyse de données nécessite une étape préalable de paramétrage, ce qui n’est pas le cas en construction interactive du modèle de données. En effet, l’algorithme automatique se comporte comme une boîte noire recevant en entrée des données et fournissant en sortie un modèle de ces données. L’utilisateur ne participe pas à la construction de ce modèle, ce qui pourrait avoir une incidence sur le degré de confiance qu’il accordera au résultat. La vision humaine peut servir à capturer des corrélations complexes dans les ensembles de données au travers de représentations graphiques. Si l’utilisateur de l’outil de fouille interactive de données est un spécialiste du domaine des données, il peut utiliser ses connaissances du domaine de données durant le processus de fouille et non seulement au moment de l’interprétation des résultats (cas des algorithmes automatiques). La confiance au modèle de données ainsi construit est élevée car l’utilisateur a participé à sa construction. Le temps de traitement avec l’algorithme interactif peut s’avérer long, surtout pour de grands ensembles de données.