Motivations

Dans le domaine de l’ECD, de nombreux efforts sont concentrés sur le développement des techniques optimales de découverte de corrélations, de motifs, de tendance ou de distribution des données. Parallélisme, incrémentation et distribution en sont quelques unes. On reconnaît une bonne méthode de fouille de données à sa capacité de [Domingos et Hulten, 2001] et [Han et Kamber, 2001] :

traiter de grands ensembles de données et des données de tout type en un temps constant,
requérir très peu de connaissances du domaine d’application,
occuper une place constante en mémoire quelque soit la quantité des données traitées,
créer un modèle des données en une seule lecture de ces données,
être paramétrable pour satisfaire à certaines contraintes,
s’appliquer à des données bruitées,
fournir un modèle de données quelque soit l’étape de traitement dans lequel il se trouve,
produire un modèle équivalent à celui susceptible d’être obtenu par n’importe quel algorithme de fouille ne respectant pas les contraintes spécifiées ci-dessus,
s’adapter aux variations des ressources interactionnelles.
En complément à cet ensemble de facteurs de qualité, [Inselberg, 1985], [Ankerst et al., 1999], [Ankerst, 2000] et [Poulet, 2002a] vont s’intéresser à l’exploitation des capacités humaines en reconnaissance de formes par les méthodes de fouille, on va alors parler de FVD. Les avantages de cette approche sont :

l’augmentation de la confiance et de la compréhensibilité des modèles conçus car les utilisateurs finaux participent à leur construction,
l’utilisation des possibilités humaines en reconnaissance des formes,
l’utilisation des connaissances du domaine des données durant le processus de fouille.

Cette valeur ajoutée en ce qui concerne la FVD se réfère beaucoup plus à l’implication des utilisateurs finaux qui permet de combiner l’énorme capacité de stockage des ordinateurs et leur capacité de calcul aux connaissances créatives des utilisateurs qui peuvent être flexibles et adaptables.

En plus de l’optimisation en ECD, un autre aspect très étudié concerne l’évaluation du point de vue technique de ces outils. A cet effet, des techniques telles que la validation croisée, le holdout, le boostrap, etc. ont vu le jour. Ces techniques d’évaluation reçoivent en entrée des ensembles de données et servent à démontrer la qualité, la pertinence des résultats obtenus ainsi que leur nécessité. Les utilisateurs finaux ne sont pas pris en compte dans cette évaluation, il n’existe pas de critères permettant de mesurer la qualité d’utilisation et d’obtenir le point de vue (objectif ou subjectif) des utilisateurs. Pourtant, ils sont impliqués dans la boucle de fouille. Les facteurs d’optimisation (1-9) et d’évaluation des outils de FVD reposent donc essentiellement sur les aspects techniques du domaine de la fouille et sont beaucoup plus accessibles et manipulables par les développeurs, des spécialistes du domaine concerné. Il existe pourtant des facteurs de qualité visibles par les utilisateurs finaux. A l’état actuel des recherches, il s’avère difficile de jauger de l’acceptabilité de ces outils de FVD.

Qu’est ce qui se passera lors du transfert grandeur nature des techniques d’ECD techniquement fiables et efficaces des laboratoires à un contexte d’utilisation ? Dans leurs études, [Whiteside et al., 1988] et [Wolf, 1989] montrent que plusieurs produits dont les tests en laboratoire ont été satisfaisants ne fonctionnent pas une fois transférés dans un contexte réel d’utilisation.

Nous pensons que les différents facteurs de qualité technique existants constituent des conditions nécessaires mais pas suffisantes pour l’évaluation qualitative en ECD en général et plus particulièrement en FVD. Nous proposons des méthodes d’inspection experte et de diagnostic nécessaires pour ce faire dans le domaine de la FVD.

L’étude qualitative des outils de FD que nous proposons n’a pas jusqu’à présent constitué une forte préoccupation et très peu de travaux y sont dédiés. Pourtant, si les utilisateurs refusent d’utiliser les produits finaux, le temps consacré au développement des méthodes performantes de FD du point de vue technique serait vain. Il s’avère nécessaire de déterminer les caractéristiques d’acceptabilité des outils de FVD afin de pouvoir les évaluer.

Toute la difficulté inhérente à une telle préoccupation consiste à définir des moyens d’analyse, d’inspection, de diagnostic et de sondage des utilisateurs des produits existants. A cet effet, il peut être intéressant de sortir du cadre de la fouille de données et de rechercher des fondements dans d’autres disciplines.

Après l’analyse et l’évaluation des outils de FVD, nos travaux s’étendent à la définition des solutions aux problèmes recensés durant les phases d’analyse, d’évaluation ou de diagnostic.