c. Le modèle vectoriel

Une des manières de définir un document est de le représenter dans un espace euclidien à n dimensions, n étant le nombre potentiel de mots utilisés. Ainsi chaque document est défini par un point (ou un vecteur résultant) selon le nombre d'occurrences de chaque mot. Deux documents seront donc considérés comme proches s'ils sont définis par les mêmes mots. Ils auront donc des vecteurs résultants proches au sens de la mesure euclidienne. Cette méthode donne de meilleurs résultats avec un vocabulaire contrôlé en raison de la diminution du nombre d'axes, et de la gestion de l'homonymie ou l'homographie.

De la même manière, une question peut être représentée par un vecteur selon les termes qui la composent. Nous pouvons alors extraire comme réponse les documents qui ont les vecteurs résultants les plus proches de celui de la question.