2 Exploitation de la maquette à l’aide du TCI

L’exploitation de la maquette a consisté à faire une recherche à partir de chaque terme de chaque catégorie sans le souci de vérifier si le domaine d’une catégorie existait dans le corpus ou non.

Dans le TCI certains termes sont considérés comme étant des descripteurs et d’autres qui ne le sont pas. Nous avons effectué des recherches pour tous les termes indistinctement.

Comme critère de recherche nous avons adopté de demander une information à partir du centre de syntagme nominal de premier niveau. Les termes du TCI sont des descripteurs, ils ne sont pas précédés de déterminants comme les syntagmes nominaux. Ainsi, pour faire l’analyse, on n’a pas tenu compte des déterminants existants dans les syntagmes nominaux trouvés.

Par exemple : On a trouvé le syntagme nominal outras obras de referência et on l’a compté comme étant un résultat correct pour le terme obra de referência. Dans ce cas on a, en plus de la question du déterminant, le fait que le terme est au singulier. Pour une question de normalisation, dans le TCI tous les termes sont au singulier.

En ce qui concerne l’utilisation de la maquette on peut dire qu’elle a toujours offert une manière très simple de faire la recherche, sans les complications usuelles d’un système de recherche d’information orienté par un langage de commande. Pourtant, la maquette ne permettait pas d’arriver à un résultat d’une manière plus rapide car on est obligé de faire la recherche toujours à partir d’un centre de syntagme nominal de premier niveau et puis monter l’arborescence. Cela peut éventuellement ennuyer l’utilisateur spécialiste, surtout s’il connaît le terme exact de l’information dont il a besoin et si ce terme est un syntagme nominal de quatrième ou cinquième niveau. Il semble que l’approche de la maquette est plus orientée vers les usagers débutants parce qu’elle leur permet de connaître le sujet de la base et les termes qui y existent. Une solution à ce problème peut être la création d’une option permettant à l’utilisateur de faire la demande de la recherche d’information à partir d’un centre de syntagme nominal d’un niveau plus haut.

Nous présentons le résultat de la recherche, dans le tableau de la figure 6.1. Bien qu’on a fait la recherche en utilisant les descripteurs et non-descripteurs, on n’a tenu compte que des descripteurs. Il faut dire que nous avons trouvé aussi quelques réponses pour les non-descripteurs.

L’analyse des résultats obtenus dans l’exploitation de la maquette à l’aide du TCI doit tenir compte du fait que le corpus ne couvre pas toutes les catégories du TCI. D’autre part, en tenant compte de l’évolution croissante du domaine des sciences de l’information et du fait que la réalisation du TCI date de 1989, on peut penser que des syntagmes nominaux sont des descripteurs potentiels pour ce thesaurus.

Pour essayer de faire une analyse plus précise il faut classer les articles selon les catégories du TCI. Pour cela on a utilisé les informations du mémoire 83 sur les articles.

Dans la figure 6.2, on remarque que les articles ont été souvent inclus dans plus d’une catégorie. En conséquence, la somme totale d’occurrence d’articles dans les catégories est plus grande que la quantité des articles.

En faisant une comparaison entre les deux tableaux, on peut observer les faits suivants :

  1. Le pourcentage des termes - des catégories A, D et F - trouvés dans la maquette est aussi fort que la quantité des articles classés dans chacune de ces catégories. On a trouvé 21,74% de descripteurs de la catégorie A tandis qu’on n’a que 6 articles classés dans cette catégorie. En ce qui concerne la catégorie D, on a trouvé 18,10% de descripteurs contre 7 articles, alors que pour la catégorie F on a trouvé 16,66% de descripteurs contre 8 articles. Cependant l’ordre de grandeur de la quantité d’articles dans chacune de ces catégories ne correspond pas à celles de ses pourcentages. On observe que dans la catégorie A, moins d’articles (6) ont utilisé un pourcentage de termes plus grand que les catégories D et F. Par contre, la quantité d’articles classés dans la catégorie F est plus grand que dans les deux autres. Pourtant, son pourcentage est plus faible que les deux autres. On observe encore que la quantité de termes trouvés pour cette catégorie (8) est beaucoup plus faible que celle obtenue pour la catégorie E (18). Pourtant, le pourcentage de termes trouvés pour la catégorie F est beaucoup plus fort que celui de la catégorie E. On peut donc supposer que la catégorie F est, dans le TCI, moins développée que les autres catégories (48 termes contre 69 pour la catégorie A, 116 pour la catégorie D). En ce qui concerne les catégories A et D, on se rend compte que la catégorie D possède une quantité important de termes (116 contre 69 termes de la catégorie A). Ce qui donne une valeur relative plus grande pour la catégorie A ;
  2. Les catégories B et C ne tiennent aucun article classé comme tel, et pourtant on a trouvé quelques-uns uns de ses termes dans la maquette (9,74% et 6,59% respectivement). On a trouvé 15 termes du TCI dans la maquette pour la catégorie B (Document). Lorsqu’on parle d’une unité d’information ou de sa planification, son organisation ou son administration, on est obligé de parler aussi des périodiques, des articles, des brevets, des normes, etc. Ce sont des termes qui font partie de la catégorie B dans le TCI. On peut faire le même raisonnement pour la catégorie C qui regroupe des termes concernant les unités d’information comme base de données, bibliothèque, système d’information, etc ;
  3. On trouve un nombre important d’articles classés dans la catégorie E (6) et pourtant la quantité relative de termes de cette catégorie, trouvés dans la maquette, n’est pas signifiante. C’est vraisemblablement à cause de la quantité totale importante de termes existants dans cette catégorie dans le TCI, 293. Cette catégorie possède presque 150% de plus de termes que la catégorie D (116 termes) tandis qu’on a trouvé 21 termes de cette catégorie et 18 de la catégorie E. On est amené à supposer que la catégorie E est plus développée que les autres.

D’une autre part nous observons quelques syntagmes nominaux qui possèdent une forme syntaxique un peu différente des termes du TCI. Ces syntagmes n’ont pas été comptés dans la statistique. Voilà quelques exemples :

  • demanda dos usuários (dans la maquette) au lieu de demanda de usuários (dans le TCI)
    Bien que les deux termes se ressemblent, ils ont une sémantique différente. Le terme demanda de usuários fait référence à la demande des utilisateurs d’une manière générale tandis que le terme demanda dos usuários fait référence à un ensemble d’utilisateurs définis. On a dans le terme demanda de usuários l’intervention de la logique intensionnelle car on n’a pas forcement des utilisateurs. Par contre, dans le terme demanda dos usuários on a l’intervention de la logique extensionelle. C’est la mise en relation de la demande et d’un ensemble d’utilisateurs définis. Dans le terme demanda dos usuários, on a deux syntagmes nominaux (demanda dos usuários et os usuários), alors que dans le syntagme demanda de usuários, on n’a que un seul syntagme nominal ;
  • gerador de conhecimento (dans la maquette) au lieu de gerador de informação (dans le TCI)
    Ces deux termes sont peut-être des termes associés mais ils n’ont pas le même sens. On peut dire qu’un générateur de connaissance génère des informations mais le contraire n’est toujours pas vrai ;
  • estudo de mercado (dans la maquette)au lieu de estudo de demanda (dans le TCI)
    On voit ici encore deux termes qui se ressemblent ou, au moins font partie d’un même domaine. Le terme estudo de mercado (étude de marché) est vraisemblablement plus général que estudo de demanda (étude de demande) ;
  • informatização na sociedade (dans la maquette) au lieu de informatização da sociedade (dans le TCI)
    Ces termes font référence au même sujet, mais utilisent une syntaxe différente. Le TCI a établi le terme informatização da sociedade (informatisation de la société) pour faire référence à l’informatisation des activités existant dans la société. Par contre, il y a quelques auteurs qui appellent ce processus de informatização na sociedade (informatisation dans la société). Ce genre de problème montre en fait qu’on peut trouver de petites différences entre les termes établis dans un thesaurus et les termes utilisés dans les articles par les auteurs ;
    Dans un autre côté, chacun des termes possède deux syntagmes nominaux dont le syntagme de premier niveau est le même, a sociedade, on arrive aux termes informatização na sociedade et informatização da sociedade à partir du centre de syntagme nominal de premier niveau sociedade. Le même résultat peut être trouvé si l'on fait la recherche à partir du centre de syntagme nominal de deuxième niveau informatização. On observe donc, dans cette approche, que les changements de prépositions dans les termes ne nuisent pas aux résultats d’une recherche. M. LE GUERN montre dans son article, de la revue Le Français Moderne 84 , un exemple identique dans la langue française. Nous arrivons à la même constatation que lui ;
  • periódicos técnicos (dans la maquette) au lieu de periódicos técnico-científico (dans le TCI)
    Le terme trouvé dans la maquette ressemble au terme du thesaurus. Il pourrait être classé comme un terme plus spécifique ou même un terme associé à celui du thesaurus.

D’autre part, il y a quelques syntagmes nominaux trouvés et qui se rattachent partiellement aux termes du TCI, comme :

  • literatura economica
  • literatura tecnica disponível
  • literatura técnico-científica mundial
  • tandis que dans le TCI on trouve les termes :
  • literatura
  • literatura de cordel (terme brésilien, c’est un type de littérature caractéristique du Nord-Est du Brésil qu’on trouve dans des feuilles pauvrement imprimées et qui sont placés pendus en cordeau dans les marchés et foires)
  • literatura de ficção
  • literatura infantil

Le terme literatura dans la langue portugaise, aussi bien que littérature dans la langue française fait référence aux œuvres littéraires. Selon le dictionnaire Le Robert Micro, ‘ « ce sont des œuvres écrites, dans la mesure où elles portent la marque de préoccupations esthétiques ; les connaissances, les activités qui s’y rapportent » ’. Ainsi, il semble que les termes trouvés dans le TCI ont été regroupés en tenant compte de ce concept. Par contre, les termes literatura economica, literatura técnica disponível et literatura técnico-científica mundial, sont des termes plus récents qui ajoutent un deuxième concept au premier, tant au Brésil qu’en France : bibliographie sur une question donnée. Il s’agit d’une actualisation sémantique de ce terme.

Ces observations démontrent que les syntagmes nominaux extraits directement des textes composants d’une base de données, peut répondre plus précisément à la demande d’un utilisateur. En plus, ces observations peuvent suggérer l’utilisation de l’approche des syntagmes nominaux pour améliorer les thesaurus autant en ce qui concerne la qualification d’un terme qu’en ce qui concerne l’amélioration de la forme du terme.

Notes
83.

Hélio KURAMOTO. Maquette d’un système de recherche d’information en utilisant des syntagmes nominaux. Villeurbanne, 1995. Mémoire du DEA. École Nationale Supérieure des Sciences de l’Information et des Bibliothèques.

84.

Michel LE GUERN. « Un analyseur morpho-syntaxique pour l’indexation automatique », Le Français Moderne. Juin, 1991, t. LIX, n°. 1, p. 34-35.