5.4.1 Modélisation du système multi-agent

Le SMA proposé est constitué d’un agent facilitateur, d’un agent qui se charge de l’évaluation des critères de comparaison des ensembles de données. A chaque méthode d’analyse de données de l’environnement est affecté un agent qui est chargé de son exécution. Un second agent facilitateur se charge de la gestion de ces différents agents.

On rappelle que le besoin ici est de rendre l’utilisateur (spécialiste du domaine des données) autonome, c'est-à-dire capable à partir d’un ensemble de données, de choisir une méthode d’analyse de données, d’aboutir lui-même à des modèles de données et d’interpréter ces modèles. Il s’avère nécessaire de lui proposer de l’aide. Une approche simple d’aide au choix des meilleurs algorithmes de classification de données à exécuter pour une tâche donnée serait d’exécuter tous les algorithmes de l’environnement sur l’ensemble de données du problème à traiter. Mais, l’exécution d’une de ces méthodes peut s’avérer être longue. Il est impératif d’éviter un temps d’attente important, car cela pourrait susciter l’ennui et contribuer au désintéressement des utilisateurs.

L’approche proposée est fondée sur un système multi agents (SMA) et consiste à adapter les connaissances déjà acquises au choix des méthodes d’analyse de données si le seuil de rejet n’est pas atteint. Si le seuil de rejet est atteint, on procède à une acquisition de nouvelles connaissances de la machine en situation d’apprentissage pour l’aide. Contrairement aux systèmes usuels de raisonnement à partir de cas déjà traités, l’acquisition de nouvelles connaissances dont il est question est un processus indépendant de la situation d’apprentissage pour l’aide. Nous reviendrons plus explicitement dans la suite de cet article sur cette étape de prise de décision (section expérimentale). La notion d’agent et de SMA fait l’objet du paragraphe suivant.

En effet, nous proposons l’intégration de la fouille visuelle de données dans un système multi agents (SMA) en vue non seulement de contribuer à l’autonomie de l’utilisateur mais aussi d’améliorer la qualité des solutions et des temps d’exécution. Partant de la définition d’un agent logiciel de [Ferber, 1995], nous pouvons définir un agent comme une entité autonome, c'est-à-dire capable d’agir sur elle-même et sur son environnement en vue de réaliser ses objectifs. L’agent dispose d’une représentation partielle de cet environnement. Dans un environnement multi agents, l’agent peut communiquer avec les autres agents, son comportement est la conséquence de ses observations, de ses connaissances et des interactions avec d’autres agents.

L’inclusion du système de fouille de données dans un SMA consiste à définir une société d’agents et les interactions possibles entre eux. Le premier avantage d’une telle approche repose sur cette définition des interactions entre agents qui permet d’opérer des traitements en parallèle. Le second avantage fait référence à l’autonomie des agents. Comme l’indique la définition d’un agent, il s’agit d’une entité capable d’agir sur elle-même. Il se pose un besoin d’acquisition de connaissances tout au long des traitements par le logiciel de fouille et sans recompilation du programme. Un agent pourra sans aide extérieure le faire. Les prises de différentes décisions peuvent aussi être déléguées à des agents. En résumé, la répartition de calculs et la coopération de machines distantes, propriétés des SMA sont bénéfiques pour ce faire. Par application d’une approche basée sur un SMA, un gain de temps pourra être opéré par rapport à l’exécution de toutes les méthodes d’analyse de données (décrite ci-dessus) et un gain de qualité sera aussi opéré par rapport aux méthodes existantes basées sur des approximations successives (adaptation de cas traités). L’aspect adaptatif et l’autonomie des SMA permettent au fur et à mesure des traitements d’acquérir des connaissances (en situation d’apprentissage pour l’aide au choix) relatives à la performance des algorithmes sur des problèmes à résoudre et de mettre à jour la base de connaissances. Le dernier avantage de l’approche proposée est la possibilité de mise à jour de la base de connaissances en l’absence d’experts en méthodes d’analyse de données.

Le système que nous décrivons dispose de trois mécanismes d’apprentissage : l’apprentissage en raisonnant par rapport aux cas déjà traités, l’apprentissage en s’adaptant pour résoudre par exemple des cas peu similaires aux problèmes déjà traités et enfin l’apprentissage en mémorisant qui permet de sauvegarder les solutions des cas déjà traités. Grâce à cette combinaison de stratégies, il nous est possible de traiter le problème de la propagation de l’erreur de prédiction comme nous le montrerons dans la partie réservée aux expérimentations qui fera suite à la modélisation du système.