a. Le module d’interrogation automatique

Dans le cadre de la coopération RECODOC, CEA-DIST, un module particulier d’interrogation de SPIRIT a été développé. Ce module a été réalisé par Jérôme Charron dans le cadre d’un travail plus général sur l’interrogation des serveurs HTTP [CHA96]. Ce module, développé en JAVA, permet d’interroger des serveurs HTTP d’une manière automatique, en spécifiant dans deux fichiers XML le serveur interrogé, et les données de la requête (en général les questions). Conformément à ce programme nous avons écrit deux DTD :

  • La première, profile.dtd, spécifie les paramètres d’interrogation de notre base Profil-Doc.

  • La seconde, queries.dtd, spécifie les paramètres de description des requêtes qui sont faites à la base.

Nous avons ensuite écrit plusieurs fichiers au format XML, s’appuyant sur ces descriptions, pour fixer les caractéristiques particulières des interrogations. Les configurations de connexion et les champs interrogés dans la base sont spécifiés dans profile.xml, les intitulés des questions et les zones d’interrogations sur lesquelles elles portent sont présentées dans queries.xml122. Nous avons présenté en annexe les quatre fichiers profile.dtd, queries.dtd, profile.xml et queries.xml. Nous allons en décrire plus simplement le contenu.

La DTD de la recherche d’information (voir en annexe profile.dtd) permet de formuler des interrogations par Internet. Elle comporte deux entrées principales : le nom du moteur de recherche utilisé ainsi que l’URL123 du site interrogé. L’entrée URL de la DTD permet de spécifier des caractéristiques techniques pour que le format de l’interrogation soit bien en concordance avec le serveur interrogé. Les critères à renseigner pour l’interrogation sont :

  • La méthode de connexion

  • Le type de connexion utilisé

  • Le nom du serveur interrogé

  • Le port de connexion

  • Le fichier de connexion

  • La description des zones d’interrogation.

Les zones d’interrogations sont définies par :

  • Le nom de la zone interrogée

  • Le nom des champs d’interrogation correspondants dans la base SPIRIT

Un fichier XML correspondant à cette DTD va être généré pour chaque nouveau serveur interrogé. Dans le cas de l’interrogation par le système Profil-Doc le fichier XML correspondant renseignera chacun des champs de la manière suivante :

message URL BID001.gif

La DTD construite pour modéliser ces interrogations (queries.dtd) permet de définir chaque question par :

  • un numéro unique identifiant la requête en langage naturel

  • les différentes zones d’interrogation

  • les valeurs respectives qui leurs sont attribuées.

Les zones d’interrogation permettent de définir les combinaisons de champs descripteurs de la base sur lesquels portera l’interrogation. Ce sont ceux qui sont défini dans profile.dtd : query, production, diffusion, unite, TYPE_UD, FORME_DISC, STYLEF, idbase

Les valeurs qui leurs sont associées sont :

  • La requête en langage naturel pour la zone query

  • Les critères factuels de filtrages pour les zones production, diffusion, unite, TYPE_UD, FORME_DISC, STYLEF

Plusieurs zones d’interrogations peuvent être définies pour chaque question. A titre d’exemple nous présentons la structure du fichier XML correspondant à une interrogation d’un utilisateur du profil 1, avec la fonction d’aiguillage A1 (cf. annexe queries1.xml).

Notes
122.

Nous les décrivons dans le paragraphe suivant.

123.

Unified Ressource Location