4.4. L’homogénéité du langage

Le fait de pouvoir exploiter et partager un ensemble de critères communs permettant l’analyse des documents est un atout évident. Pour cela, il paraît essentiel d’employer un même langage utile à la fois pour les opérations de saisie mais aussi pour la recherche.

Ranger et chercher un document ou une donnée par l’intermédiaire de sa description sont deux démarches d’esprit et de nature différentes. Dans le premier cas, le document est immédiatement visible, dans le deuxième, il est immergé dans le fond documentaire. L’équation de recherche conditionne et garantit, si elle est correctement effectuée, un taux de réponse pertinent. Ce taux est directement proportionnel à l’adéquation entre les descripteurs ayant servi à la saisie et ceux qui sont employés pour la recherche.

Ces deux opérations doivent donc avoir pour base un dispositif palliant les variations que l’on peut constater lorsqu’elles résultent de l’emploi du langage naturel, c’est-à-dire de la langue de tous les jours : multiplication des bruits (“documents non pertinents par rapport à la question” (Lemaitre, 1996)) et des silences (“documents pertinents existants non retrouvés” (Lemaitre, 1996)) … En effet, le langage naturel évolue avec le temps, la mode et l’usage. La signification des mots n’est jamais définitive mais partie prenante de la réalité vécue et des conceptions culturelles différentes des utilisateurs. Le procédé de classement par langage naturel a des avantages : il est souple, peu contraignant et se traduit par une économie du coût de l’indexation. Par contre, il conduit à une augmentation du coût de la recherche, conséquence des bruits et des silences provoqués lors de l’interrogation.

Le problème est que l’archéologue n’a pas un vocabulaire défini, stable et il pourra très bien décrire comme un plat creux ce qu’il nommera dans la description suivante une assiette. L’utilisation d’un langage contrôlé et en l’occurrence de listes de termes de vocabulaire semble donc indispensable pour le bon usage d’une base de données et nommer chaque objet de la même manière.

La création de repères, signes, symboles ou mots, introduit donc la notion de langage contrôlé, fondé sur un accord entre les membres d’un groupe quant à leur signification. Le langage contrôlé permet une normalisation de la description car il codifie les descripteurs et leurs relations entre eux. Ainsi le report à ce langage favorise le contrôle du sens, supprime l’équivoque, limite la polysémie (pluralité du sens et de la valeur des mots), car il spécifie l’usage des descripteurs dans la saisie comme dans la recherche.

Un problème de vocabulaire récurrent et majeur se pose au niveau de ces listes de termes de vocabulaires et je pense qu’il est important de clarifier les appellations employées pour les désigner. On les appelle souvent des thesauri. Mais aujourd’hui le mot thesaurus est utilisé un peu à tort et à travers pour désigner des listes très diverses que ce soient des listes de valeurs, des index automatiques des mots saisis dans un champ, des listes de mots-clés, des aides à la saisie, … Cependant le terme thesaurus désigne quelque chose de tout à fait précis dans l’univers des bases de données, car il est conçu avant tout pour l’indexation.

Un thesaurus 9 est un vocabulaire de termes contrôlés d’indexation, structuré de manière à ce qu’il mette en évidence les relations a priori entre les concepts. Comme une liste de mots-clés, c’est un instrument qui utilise une terminologie normalisée et contribue à aider l’utilisateur à sélectionner de manière logique des occurrences dans une base de données.

Un thesaurus se distingue d’une liste de termes par les points suivants :

Malgré la complexité de sa mise en œuvre, un thesaurus présente des avantages certains sur une simple liste de mots-clés. Ainsi il permet en particulier d’améliorer la qualité de la sélection et d’éliminer les données récurrentes par l’utilisation de sa structure hiérarchique et relationnelle ; il permet aussi à un groupe d’utilisateurs de se servir d’un même système d’indexation quel que soit le niveau de précision requis par leur recherche.

Les concepteurs ou utilisateurs de bases de données doivent donc veiller à la correcte désignation des listes de vocabulaires contrôlés qu’ils construisent.

Notes
9.

Base de données Thésaurus, ministère de la Culture et de la Communication - direction de l'Architecture et du Patrimoine. Adresse internet : http://www.culture.gouv.fr/culture/inventai/presenta/bddinv.htm