2 Chargement de la base de données dans la maquette

Pour la première étape de la construction et de la mise en service de la maquette du système de recherche d’information, nous n’avons chargé que 5 articles dans la base de données.

La procédure de chargement des cinq premiers articles dans la base de données a été exécutée comme suit :

Identification des niveaux des syntagmes nominaux dans les fichiers Word 6.0a ;
Importation des syntagmes nominaux, en format Word 6.0a dans la table de travail GROSIND ;
Création de la table GROS INDEX à partir de la table GROSIND ;
Détermination des centres des syntagmes nominaux pour chaque syntagme de premier niveau et création de la table de Centre du Syntagme ;
Création des tables des syntagmes, tables des syntagmes niveau 1, 2, 3, 4 et 5 à partir de requêtes de sélection sur la table Gros Index ;
Construction de l’arborescence des syntagmes nominaux à l’aide de la création des tables de liaison entre les syntagmes nominaux d’un niveau donné avec son correspondant de niveau inférieur (syntagmes nominaux niveau 2 avec syntagmes nominaux niveau 1, syntagmes nominaux niveau 3 avec les correspondants niveau 2 et ainsi de suite). Pour établir cette liaison on a créé un formulaire pour chaque association ;
Création des tables de références et des articles ;
Comptage du nombre d’articles d’où chaque syntagme a été extrait. Ce comptage a été fait en utilisant des requêtes de sélection et des requêtes d’ajout.

Le travail pour inclure les cinq premiers articles dans la base de données et de construire l’arborescence des syntagmes nominaux a été très lourd, étant donné que toute la procédure était manuelle et que la construction de chaque niveau d’arborescence prenait en compte un seul syntagme à la fois et ceci à chaque niveau.

A partir de cette expérience, pour le chargement définitif du corpus dans la base de données, on a adopté les procédures suivantes :

Importation des fichiers Word 6.0a, contenant les syntagmes nominaux, groupés par chaque article, dans la table de GROSIND ;
Création, à partir de la table GROSIND, de la table GROS INDEX, mettant le champ des syntagmes nominaux, tant dans le champ syntagme que dans le champ syntagme nominal inférieur ; cette procédure a évité la tâche de saisir à nouveau manuellement chaque syntagme nominal de niveau inférieur
Vérification, à l’aide du formulaire Saisir Syntagmes, de tous les syntagmes nominaux. Grâce à cette procédure nous avons corrigé le champ « syntagmes nominaux inférieur », étant donné que ce champ a été créé à l’image du champ « syntagme ». Avec cette révision, nous avons défini aussi le niveau relatif d’association entre les syntagmes nominaux. Le développement de ce formulaire a permis de rendre la tâche de construction de l’arborescence et de définition des centres des syntagmes nominaux moins lourde que dans l’expérimentation initiale
Introduction des flexions en nombre des centres de syntagme nominal au moyen du formulaire « X table centre du syntagme », qui est à l’origine de la table des mots ;
Création de toutes les tables définies dans la maquette, au moyen des requêtes de sélection et d’ajout, à partir de la table Gros Index.

L’expérimentation de la maquette avec les cinq premiers articles a permis de se rendre compte des limites suivantes au sujet du logiciel : a) la taille maximale d’un champ type texte est de 256 caractères ; b) le logiciel n’arrive pas à travailler correctement avec une requête d’ajout dont la somme des tailles des champs soit est supérieur à 256 caractères ; c) la recherche d’un champ type texte est plus lente que n’importe quel autre type de champ. Parmi ces limitations, la plus importante est celle du nombre de caractères (256). Ceci empêche la liaison de deux champs ou plus, alors que ce type d’opération est très commun dans une procédure de recherche d’information. Pour éviter ces problèmes, dans la maquette finale, nous avons créé un code unique pour chaque syntagme nominal. Ainsi toutes les opérations de comparaison et d’ajout sont effectuées sur le code et non pas sur le texte du syntagme nominal. Ainsi pour restreindre la longueur d’un champ nous avons décidé de limiter sa taille à 150 caractères.

Cette limitation n’a offert que deux solutions pour stocker les textes des articles. Une solution étant de les considérer comme un objet importé, une autre de les mettre dans un champ type mémo. Aucune de ces deux solutions n’était la bonne, car elles ne permettaient pas de traiter les textes. Pour la maquette il fallait avoir des possibilités de distinction des syntagmes nominaux dans les textes lorsqu’on demande de voir le contenu d’un article. Ainsi, parmi les deux solutions la seconde étant la moins contraignante, on a gardé donc les textes des articles dans les champs type mémo. Cela a permis de présenter l’article en entier, ce qui avait été impossible autrement.

Les problèmes relatifs au comportement des syntagmes nominaux dans leur organisation en arbre et aux centres des syntagmes seront discutés dans la section suivante.