I-6-1 - Les méthodes quantitatives en documentation

Les distributions infométriques sont des fonctions mathématiques qui décrivent ‘« les propriétés des discours enregistrés ainsi que les différents comportements en résultant’  » 34. Thierry Lafouge [LAF98] les classent en deux catégories : celles qui analysent le document primaire (le texte) ou secondaire (notice bibliographique) et celles qui considèrent le document comme une entité indivisible. La première catégorie d’études bibliométriques est appelée par Thierry Lafouge « statistiques bibliographiques ». L’analyse des documents secondaires se fait par des techniques statistiques. Lorsque l’analyse porte sur le texte intégral, on utilise une technique plus spécialisée : l’analyse des données textuelles35. Les secondes ont analysé les processus liés à la vie du document : processus de production, de diffusion, de citation et de recherche des documents. Ces études permettent de connaître la valeur d’usage d’un document. Cette valeur est un nombre positif obtenu par comptage (appelé souvent fréquence) qui n'a de sens que s’il est relié de façon explicite à un indicateur temporel, une durée, une date. Nous pouvons citer ici les travaux de Lotka, Zipf et Bradford36. Les distribution étudiées ont recu le nom de lois. ‘« Ces lois encore appellées lois de l’information, sont régient par des modèles déterministes simples. Elles sont souvent présentées comme les fondements théoriques de la bibliométrie. Il faut savoir que les régularités statistiques rencontrées dans ces exemples ne sont pas propres à la bibliométrie ; les autres domaines des sciences sociales en fournissent également de nombreux exemples (cf. La loi de Pareto sur la distribution des revenus). »’ [LAF93]

Le travail de Zipf a marqué le début d’un courant : l’analyse linguistique par des méthodes quantitatives. En particulier l’analyse de l’indexation des bases de données et la recherche des lois de distributions des termes indexés. Il constate, en étudiant des corpus de données textuelles, des régularités sur la fréquence d'apparition des mots. Très grossièrement, nous pouvons dire que si nous rangeons les termes suivant leur fréquence décroissante, nous nous apercevons qu’il existe une relation entre le rang et la fréquence : le produit (rang, fréquence) est à peu près constant.

Lotka en 1926 a étudié les relations qui existent entre les publications et les auteurs. Il observe une régularité (sous la forme d’une fonction hyperbolique) entre le nombre de publications dans un domaine scientifique et le nombre de ses membres. Le travail de Bradford avait initialement pour but de rationaliser la distribution des articles dans les collections de périodiques. Il a donné lieu à un courant d’étude sur la dispersion et l’ordonnancement des périodiques.

Un autre domaine fondamental est l’analyse des citations ; la citation étant définie par Sandison (cité dans [TAG94] p 171) comme : ‘« la décision par un auteur d’attirer l’attention sur le travail d’un autre, à un moment particulier de l’écriture de son document car le travail de ce dernier est enrichissant pour la compréhension de son thème d’étude ’ ». Le comptage de l’ensemble des citations des auteurs publiés dans les périodiques scientifiques est rassemblé dans le SCI, Science Citation Index et le SSCI, Social Science Citation Index. De grands débats se sont engagés à propos de la finalité réelle d’une citation. Est-ce une réelle reconnaissance intellectuelle, un geste uniquement fait pour la forme, une stratégie personnelle,... La controverse vient en fait du jugement qu’impliquent ces comptages, et de la difficulté d’en déterminer la valeur. Outre le jugement rendu sur un auteur ou une revue selon son facteur d’impact37, l’analyse des citations a aussi été utilisée pour produire des cartographies des différentes disciplines de recherche, en particulier la localisation de groupes ou de collèges intellectuels, ou l’émergence et le déplacement de certains champs de recherche. Elle a aussi été utilisée pour effectuer des comparaisons sur la littérature de diverses disciplines. Elle a servi à l’étude du comportement des auteurs ; en particulier : l’étude de l’usage des documents par la corrélation entre citations et usage, l’étude des réseaux de citations en utilisant la méthode des co-citations, et plus récemment l’étude de la pérennisation d’un travail par l’utilisation de citations « judicieuses ». Enfin, nous citerons à titre indicatif le modèle de Morse sur les lois de circulation des documents d’un service d’information documentaire (SID). Il permet d’induire la circulation d’ouvrages à un instant donné en connaissant l’usage qui en a été fait dans une période de temps antérieure. Ces lois de circulation des documents ont connu un essor dans la mesure où elles permettaient de faire de la prévision sur la circulation moyenne à long terme d’une catégorie d’ouvrages, et ainsi d’organiser au mieux la gestion de la collection.

Notes
34.

Dans [LAF98] FAIRTHORNE Robert A. - Empirical Hyperbolic distributions (Bradford-Zipf-Mandelbrot) for bibliographic description ans prédictions in Journal of documentation - 25 (4) - 1969 - pp 319-343

35.

éééééé Nous présentons au chapitre IV un descriptif de la méthode mathématique d’analyse des données sur laquelle s’appuient ces études.

36.

Ont suivi ceux de Mandelbrot, Leimkuhler, Brookes...

37.

Nombre moyen de citations pour chaque article d’un périodique.