IV-1-1 - Analyse des modalités de la description du corpus

La figure suivante présente la chaîne de découpage et caractérisation de l’information qui permet, dans le cadre de Profil-Doc, d’aboutir au corpus d’unités documentaires à partir des documents primaires.

message URL FIG192.gif
Figure IV-1 : La construction du corpus d’interrogation dans Profil-Doc

Nous avons fait une hypothèse lors de l’élaboration du système Profil-Doc (cf. chapitre III-1-7). Nous avons supposé que les différentes propriétés étaient indépendantes les unes des autres. La régularité (ou non) des propriétés des unités documentaires ainsi que d’éventuelles corrélations entre elles (lien 2) seront analysées par une étude statistique des distributions des différentes propriétés sur la base. (Nous serons ainsi à même de savoir comment elles se répartissent.) D’autre part, une étude de la distribution des unités documentaires réponses, selon la provenance des documents initiaux, donnera une indication quant à l’utilité et l’influence du découpage. Est-ce que les unités réponses permettent de recomposer par exemple 60 à 80% d’un ou de plusieurs documents entiers ou bien n’observe-t-on que des unités réponses isolées, extraites chacune d’un document entier ?