5.2.3.7 Algorithme des k plus proches voisins (kppv)

On donne :

X, un ensemble de données,

K, le nombre des plus proches voisins de cet ensemble de données à retrouver,

x l’ensemble de données à traiter.

L’idée est de chercher x1…xk les K plus proches voisins de x dans X et de retourner

L’algorithme des k plus proches voisins est souvent utilisé dans les méthodes d’apprentissage supervisé pour le raisonnement à partir de cas. La phase d’apprentissage consiste à stocker les exemples de cas résolus. Le classement de nouveaux cas s’opère en calculant la distance entre les critères de description des données du cas à traiter et ceux des exemples de la mémoire d’apprentissage.

Cet algorithme a été utilisé par [Brazdil et Soares, 2000], [Brazdil et al, 2003], [Köpf et Iglezakis, 2002] et [Kalousis et Theoharis, 1999] dans le cadre de la prédiction des performances des algorithmes de classification supervisée de données, en vue du guidage des spécialistes des méthodes d’analyse de données.

L’idée de cette méthode en prédiction des performances d’algorithmes est la prise de décisions basée sur la recherche de un ou plusieurs cas similaires déjà résolus. En effet, l’algorithme cherche les k plus proches voisins du nouveau cas et prédit la réponse la plus fréquente de ces k plus proches voisins. La méthode utilise à cet effet deux paramètres : le nombre k et la fonction de similarité pour comparer le nouveau cas aux cas déjà classés.