b. Etude bibliométrique des questions selon leurs volumes de réponse

Nous venons de présenter la méthode utilisée pour construire le corpus Q de questions. Ces dernières sont extraites de manière aléatoire et donc couvrent une grande diversité de sujets, plus ou moins bien représentés dans la base. Nous ne savons pas, a priori, comment vont se distribuer ces volumes réponses.

‘ ‘« Très souvent il est préférable d’utiliser des techniques qui transforment ces distributions en rang afin d’obtenir de meilleurs résultats » [TAG90’]’

Nous avons présenté au chapitre I-6-1 les distributions de Zipf, Bradford et Lotka en bibliométrie. En parlant de ces distributions, Lafouge [LAF93] rapelle que ‘« la majorité de ces distributions sont des courbes en J renversé, unimodale, avec en général une longue queue. D’autre part ces distributions n’ont pas de « moments ». S.D. Haitum les dénomme « distributions Zipfiennes » en les opposant aux « distributions gaussiennes »’

Dans un graphique de type Zipfien, on peut mettre en évidence 3 zones caractéristiques qui ont des interprétations différentes selon les données analysées.

message URL FIG204.gif

Nous avons procédé à l’interrogation de notre base avec les 652 question du corpus Q. La figure suivante représente le nombre d’UD réponse pour chaque question. Nous présentons les questions par rang, et les ordonnons de facon décroissante en fonction du volume d’unité documentaires réponse. Nous observons (figure IV-5) une décroissance régulière du nombre d’UD rapatriées.

message URL FIG205.gif
Figure IV-4 : Distribution des nombres d’UD Unité Documentaire réponses par question

La distribution des nombres d’UD réponse par question est une distribution régulière de type Zipfien, cependant, la faible longueur de la queue ne permet pas d’introduire une rupture suffisante pour scinder la courbe en trois zone. Sur la figure IV-5, la zone A correspond à des questions très générales, les zones B et C sont réunies en une seule difficilement interprétable.

Observons à présent la distribution obtenue si nous comptabilisons les occurrences des questions en fonction du nombre d’UD qu’elles rapatrient.

message URL FIG206.gif
Figure IV-5 : Distribution des occurrences de questions en fonction du nombre d’UD réponse.

Cette distribution est irrégulière. On peut cependant lui associer une courbe de régression, ajustée selon la distance des moindres carrés. Parmi les modèles étudiés (fonction linéaire, logarithmique et puissance), la régression la plus proche est une fonction puissance, son équation est 52,024x-0,7222 .

L’irrégularité de cette courbe nous pousse à chercher un autre mode de représentation.

Nous allons à présent représenter ces résultats sous forme cumulée. Cette forme à l’avantage de produire des représentations plus lisibles. Nous allons tracer la courbe de la somme du nombre de questions qui ont un volume d’UD réponses inférieur à une valeur x. Elle est représentée dans le graphique suivant :

message URL FIG208.gif
Figure IV-6 : Distribution cumulée du nombre de questions en fonction du nombre d’UD réponse

Chacun des points (x,y) de la courbe représente le nombre y de questions rapatriant au moins x UD. Jusqu’a une valeur seuil (x=216) la courbe est de type logarithmique. Au-delà de ce seuil la courbe est affine avec un coefficient de variation proche de 1 (courbe constante).

Nous observons :

  • Il y a très peu de questions qui rapatrie un nombre élevé d’UD. En effet, au-delà de 216, la pente de la courbe est faible. Nous observons 638-652=14 questions qui rapatrient plus de 216 UD, soit plus du tiers des UD référencées dans la base.

  • Le volume maximum d’UD rapatriées par une question n’excède pas 378, ce qui représente environ la moitié des UD de la base.

  • La plus grande majorité des questions soit 368-29=339 questions, rapatrient moins d’un tiers des documents de la base. Le volume de questions suit une fonction régulière du nombre d’UD rapatriées (fonction proche d’une fonction logarithmique).

Notes
120.

Unité Documentaire