4 Modèle de données pour les syntagmes nominaux

Pour la modélisation de données, il est nécessaire tout d’abord de connaître le contexte du corpus et les faits qui caractérisent les syntagmes nominaux. Il faut également tenir compte des considérations présentées dans la section 1 de ce chapitre du fait qu’elles correspondent non seulement à l’approche de l’interface de recherche d’information, mais aussi à la démarche interactive entre l’utilisateur et la maquette de recherche d’information.

À la lumière du travail de construction de la base de données, on distingue l’existence de deux entités. Selon VETTER :

‘« Une entité est un exemplaire différentiable et identifiable d’une chose, d’une personne ou d’un concept concret ou abstrait, pour lequel on doit gérer des informations significatives. Il y a des auteurs qui considèrent qu’une association (par exemple, l’union d’une femme et d’un homme est aussi une entité). » 73

Ainsi, les deux entités sont :

  1. ARTICLE (document du corpus) ;
  2. SYNTAGME NOMINAL.

Les articles et les syntagmes nominaux constituent ensemble un contexte bien défini ; pour la modélisation des données on a considéré les faits suivants :

  1. Les articles sont numérotés en ordre séquentiel à partir de 1 ;
  2. Pour chaque article les paragraphes sont aussi énumérés en ordre séquentiel à partir de 1 ;
  3. A chaque article correspond un titre ;
  4. A chaque article correspond un texte d’une longueur plus grande que 256 caractères ;
  5. Un même syntagme nominal peut apparaître dans plusieurs articles ;
  6. Un même syntagme nominal peut apparaître dans plusieurs paragraphes à l’intérieur d’un article donné ;
  7. Les syntagmes nominaux peuvent être classés en cinq niveaux, selon le contexte de ce travail ;
  8. Un même syntagme nominal peut être classé dans plus d’un niveau ;
  9. Il doit exister une association entre les syntagmes nominaux d’un niveau donné avec ceux d’un niveau immédiatement inférieur (construction de l’arborescence) ;
  10. Un syntagme nominal peut être associé à plusieurs syntagmes nominaux de niveau immédiatement supérieur ;
  11. Plusieurs syntagmes nominaux peuvent être associés à un même syntagme nominal (le cas de double rection) ; ce syntagme à son tour peut appartenir à des niveaux distincts, ce qui dépend du niveau du syntagme nominal immédiatement inférieur ;
  12. Il y a un centre de syntagme nominal associé à chaque syntagme nominal de premier niveau ;
  13. Les syntagmes nominaux de premier niveau ont comme association de niveau inférieur les centres des syntagmes ;
  14. Les mots associés aux syntagmes nominaux en dehors de l’ensemble des centres de syntagmes nominaux, sont aussi associés aux syntagmes de premier niveau en fonction de leur importance dans la recherche d’information. Par exemple :
    1. Dans le cas « les systèmes d’information » — le centre du syntagme nominal est systèmes. Pourtant, le mot information est aussi important dans ce contexte que le mot systèmes.
    2. Dans le cas « l’analyse d’information » — de même que dans l’exemple (a), on considère analyse et information comme étant centres du syntagme nominal. Le premier « analyse » est le centre du syntagme nominal, le deuxième « information » c’est le centre complémentaire du syntagme nominal (voir dans le chapitre 5, à la section 4 ‘Centres complémentaires des syntagmes nominaux’, la justificatif pour cette décision).
  1. Les centres des syntagmes nominaux possèdent des flexions en genre et nombre.

Définissons quelques termes qui seront utilisés dans la construction du modèle de données de façon à éviter des confusions. Ainsi :

  1. on utilisera le terme TABLE au lieu de relation pour désigner un ensemble de tuples ;
  2. et le terme RELATION pour désigner une association entre deux TABLES ou plus.

À partir des faits énumérés, on a conçu les structures de données nécessaires pour la construction de la maquette de recherche d’information. Toutes les tables conçues ont été soumises aux règles de normalisation. Elles sont ainsi en 3FN. Ces tables seront explicitées selon la nomenclature suivante :

Les tables conçues sont donc :

  1. ARTICLES ( code-doc, titre, article) où :
  1. SYNTAGMES (code du syntagme, syntagme) où :
  1. SYNTAGMES NIVEAU 1 (code 1, syntagme 1, nombre d’articles) où :
  1. SYNTAGMES NIVEAU 2 (code 2, syntagme 2, nombre d’articles) où :
  1. SYNTAGMES NIVEAU 3 (code 3, syntagme 3, nombre d’articles) où :
  1. SYNTAGMES NIVEAU 4 (code 4, syntagme 4, nombre d’articles) où :
  1. SYNTAGMES NIVEAU 5 (code 5, syntagme 5, nombre d’articles) où :
  1. CENTRE DU SYNTAGME (code du centre, centre du syntagme) où :
  1. MOTS (code du centre, centre du syntagme) où :
  1. REFERENCE RESUMEE (code, article) où :
  1. REFERENCE (code, article, paragraphe) où :
  1. LIAISON CS - SN 1 (code syntagme niveau 1, code centre du syntagme) où :
  1. LIAISON SN 1 - SN 2 (code syntagme niveau 2, code syntagme niveau 1) où :
  1. LIAISON SN 2 - SN 3 (code syntagme niveau 3, code syntagme niveau 2) où :
  1. LIAISON SN 3 - SN 4 (code syntagme niveau 4, code syntagme niveau 3) où :
  1. LIAISON SN 4 - SN 5 (code syntagme niveau 5, code syntagme niveau 4) où :
  1. TABLE GROS INDEX (code du syntagme, syntagme, article, paragraphe, niveau, centre du syntagme, syntagme niveau inférieur) où :

L’approche adoptée pour la construction de ce modèle de données a considéré l’utilisation du code identificateur d’un syntagme nominal au lieu d’utiliser le syntagme nominal lui-même comme étant la clé de chaque table. Cette option a été nécessaire à cause de la limitation du logiciel Access concernant la taille des champs d’une table : 256 caractères. En outre, la comparaison entre deux champs numériques est plus performante que la comparaison entre deux champs textuels. Ce problème est encore plus important lorsque des syntagmes nominaux de niveau 4 et 5 atteignent parfois la limite de 256 caractères. Ainsi, pour réussir le développement de la maquette, nous avons choisi l’utilisation des codes des syntagmes nominaux au lieu des syntagmes eux-mêmes, ce qui explique la création d’un nombre plus grand de tables.

Notes
73.

VETTER, Max. Modélisation des données : Approches globale et orientée objets. Paris : Dunod Informatique, 1992.