Dans le cadre de la coopération RECODOC, CEA-DIST, un module particulier d’interrogation de SPIRIT a été développé. Ce module a été réalisé par Jérôme Charron dans le cadre d’un travail plus général sur l’interrogation des serveurs HTTP [CHA96]. Ce module, développé en JAVA, permet d’interroger des serveurs HTTP d’une manière automatique, en spécifiant dans deux fichiers XML le serveur interrogé, et les données de la requête (en général les questions). Conformément à ce programme nous avons écrit deux DTD :
La première, profile.dtd, spécifie les paramètres d’interrogation de notre base Profil-Doc.
La seconde, queries.dtd, spécifie les paramètres de description des requêtes qui sont faites à la base.
Nous avons ensuite écrit plusieurs fichiers au format XML, s’appuyant sur ces descriptions, pour fixer les caractéristiques particulières des interrogations. Les configurations de connexion et les champs interrogés dans la base sont spécifiés dans profile.xml, les intitulés des questions et les zones d’interrogations sur lesquelles elles portent sont présentées dans queries.xml122. Nous avons présenté en annexe les quatre fichiers profile.dtd, queries.dtd, profile.xml et queries.xml. Nous allons en décrire plus simplement le contenu.
La DTD de la recherche d’information (voir en annexe profile.dtd) permet de formuler des interrogations par Internet. Elle comporte deux entrées principales : le nom du moteur de recherche utilisé ainsi que l’URL123 du site interrogé. L’entrée URL de la DTD permet de spécifier des caractéristiques techniques pour que le format de l’interrogation soit bien en concordance avec le serveur interrogé. Les critères à renseigner pour l’interrogation sont :
La méthode de connexion
Le type de connexion utilisé
Le nom du serveur interrogé
Le port de connexion
Le fichier de connexion
La description des zones d’interrogation.
Les zones d’interrogations sont définies par :
Le nom de la zone interrogée
Le nom des champs d’interrogation correspondants dans la base SPIRIT
Un fichier XML correspondant à cette DTD va être généré pour chaque nouveau serveur interrogé. Dans le cas de l’interrogation par le système Profil-Doc le fichier XML correspondant renseignera chacun des champs de la manière suivante :
La DTD construite pour modéliser ces interrogations (queries.dtd) permet de définir chaque question par :
un numéro unique identifiant la requête en langage naturel
les différentes zones d’interrogation
les valeurs respectives qui leurs sont attribuées.
Les zones d’interrogation permettent de définir les combinaisons de champs descripteurs de la base sur lesquels portera l’interrogation. Ce sont ceux qui sont défini dans profile.dtd : query, production, diffusion, unite, TYPE_UD, FORME_DISC, STYLEF, idbase
Les valeurs qui leurs sont associées sont :
La requête en langage naturel pour la zone query
Les critères factuels de filtrages pour les zones production, diffusion, unite, TYPE_UD, FORME_DISC, STYLEF
Plusieurs zones d’interrogations peuvent être définies pour chaque question. A titre d’exemple nous présentons la structure du fichier XML correspondant à une interrogation d’un utilisateur du profil 1, avec la fonction d’aiguillage A1 (cf. annexe queries1.xml).
Nous les décrivons dans le paragraphe suivant.
Unified Ressource Location