2.1.1.b Une représentation en espace sémantique des connaissances

Dans un modèle dimensionnel de la mémoire permanente, les concepts relatifs à un domaine de connaissances sont localisés dans un espace sémantique à n dimensions où ils sont représentés par des points. Les dimensions qui délimitent l’espace sémantique correspondent aux propriétés spécifiques (définitoires) du domaine auquel réfèrent les concepts. Ainsi, l’espace qui représente la catégorie des ’mammifères’ peut être défini par des caractéristiques telles que la ’taille’ et la ’nature prédatrice’. Des concepts particuliers (e.g., lion, ours, chat) peuvent être localisés dans l’espace en fonction de leur valeur respective sur ces deux dimensions. Les concepts qui sont relatifs aux mots ’lion’ et ’chat’ ont des valeurs similaires sur la dimension ’nature prédatrice’, et devraient être localisés dans la même portion de l’espace représentant des valeurs élevées sur cette dimension. En revanche, les deux concepts diffèrent quant à la dimension ’taille’, et devraient être localisés dans des portions différentes de l’espace représentant cette dimension. La distance entre les points ’lion’ et ’chat’ représente la proximité psychologique entre les concepts correspondants (Gonzalvo, Canas, & Bajo, 1994). Elle devrait être plus importante que celle entre les points ’lion’ et ’ours’, ces deux concepts ayant des valeurs similaires sur les deux dimensions considérées.

Le modèle LSA (Latent Semantic Analysis) récemment proposé par Landauer et Dumais (1997), est un formalisme qui s’appuie sur une conception multidimensionnelle de la mémoire permanente pour représenter, sur une vaste échelle, les connaissances des sujets humains. Les connaissances sont représentées sous la forme de vecteurs de grandes dimensions, correspondant chacun à un mot ou à un groupe de mots. Elles sont produites à partir d’une analyse automatique (mathématique) du contenu textuel latent de larges corpus de textes. Le but de cette analyse est de représenter le sens des mots, en prenant en compte le contexte dans lequel chaque mot apparaît. En effet, des mots qui apparaissent dans des contextes similaires peuvent être considérés comme étant proches sur le plan sémantique (tout comme des contextes qui contiennent des mots similaires peuvent être considérés comme étant proches sémantiquement).

Un mécanisme d’induction permet d’inférer la similarité entre deux mots sur la base de leur co-occurrence dans une même phrase ou un même paragraphe. L’input qui est traité par ’LSA’ consiste en une matrice dont les lignes correspondent à des mots et les colonnes à des contextes textuels dans lesquels apparaissent ces mots. Une cellule de la matrice contient le nombre de fois où un mot particulier apparaît dans un paragraphe particulier. La matrice qui a été analysée par Landauer et Dumais (1997) était constituée de 30473 colonnes (correspondant chacune à un échantillon textuel) et de 60768 lignes (correspondant chacune à un mot qui apparaissait au moins dans deux échantillons). Les échantillons étaient issus des 30473 articles de l’Encyclopédie Académique Américaine. Une procédure statistique comparable à l’analyse factorielle décompose la matrice afin de représenter les mots et leurs contextes sous la forme de vecteurs dans un espace abstrait à k dimensions. Contrairement à une analyse factorielle classique, ’LSA’ exige de conserver un très grand nombre de dimensions (les valeurs optimales se situent autour de 300 dimensions). Ainsi, deux mots apparaissant dans des contextes similaires sont ainsi représentés par des vecteurs proches (la mesure de proximité est définie par le cosinus de leur angle).

La décomposition de la matrice s’effectue en trois phases principales. Dans la première, chaque cellule de la matrice est transformée en un logarithme de fréquence. Durant la deuxième phase, toutes les cellules activées pour un mot donné sont divisées par l’entropie du mot (qui est la somme des occurrences de ce mot). Plus l’entropie d’un mot est large, moins il est possible d’avoir des informations précises sur les contextes dans lesquels ce mot a été rencontré. Le résultat de ces deux phases est un ensemble de données locales sur les relations de co-occurrences entre les mots et leurs contextes. Dans la troisième phase, les données sont converties en une structure de connaissances condensée et unifiée, qui capture les associations indirectes entre certains mots. Si le mot ’X’ est associé au mot ’Y’, et si ’Y’ est associé au mot ’Z’, alors ’X’ et ’Z’ auront des représentations similaires. Toutefois, le poids de l’association ’XZ’ ne peut être équivalent à la somme des poids des associations ’XY’ et ’YZ’. Il dépend en effet de la relation qu’entretient chaque mot avec tous les autres mots de l’espace sémantique.

De nombreuses expériences ont montré des corrélations entre les performances de ’LSA’ et celles de sujets humains sur des tâches diverses, justifiant ainsi la puissance des représentations sous-jacentes. Par exemple, Landauer et Dumais (1997) ont testé les représentations produites par l’analyse automatique d’un corpus de 4,6 millions de mots sur la partie ’synonymie’ du TOEFL (Test Of English as a Foreign Language), qui est un test standardisé mesurant le niveau d’anglais de sujets non-anglophones. Il consiste à déterminer parmi quatre mots voisins d’un mot donné celui qui est le vrai synonyme. LSA a obtenu un score de 51,5 qui était comparable au score moyen des étudiants non-anglophones postulant à l’entrée aux universités américaines (51,6).

Bien que les deux types de formalismes de représentation des connaissances (en réseau associatif et en espace dimensionnel) soient différents sur le plan conceptuel, ils sont équivalents sur le plan mathématique. Aussi, la tendance actuelle est de combiner ces deux formalismes dans le but de pallier les limites de chacun d’entre eux. Kintsch (2001) a ainsi pu simuler son modèle de Construction-Intégration (CI) de 1988, grâce à une représentation provenant de l’analyse sémantique latente d’un corpus de 11 millions de mots. Ce formalisme hybride semble être relativement puissant, car Kintsch (2001) a montré qu’il permet de modéliser le traitement d’énoncés métaphoriques isolés.