III-2-1 - La base

a -Choix et collecte des données

Le découpage et la caractérisation des documents ont été fait manuellement. Nous avons procédé par lecture rapide de chaque texte100. Les critères qui nous ont permis, à un moment donné, de faire le choix de découper ou non ont été:

  • nous sommes en présence d’un paragraphe unifié au niveau du contenu et/ou autonome au niveau du sens, et d’une taille ne dépassant pas deux pages écran. Cette caractéristique va souvent de paire avec le fait d ’être en présence d’un paragraphe titré. Le découpage est ici souvent logique, il correspond à une rupture visuelle.

  • nous observons une rupture dans le discours. L’auteur peut changer de partie de discours; par exemple du résumé il passe à l’introduction. Son style discursif peut aussi évoluer. Il passe par exemple d’un style descriptif à un style argumentatif. Son style d’expression peut varier, un style littéraire peut se formaliser avec des formules ou des schémas.

Les propriétés attribuées sont celles présentées au début de ce chapitre. Un tableau récapitulatif les reprend dans le paragraphe suivant (tableau III-8).

A l’heure actuelle la base comprend 505 unités documentaires extraites de 55 documents. Le fichier WORD initial, qui contient tous les documents insérés dans la base avec les balises SPIRIT, a une taille de 2,602 M. Ce qui nous fait environ 800 pages A4 pour une police 12 points. Les articles proviennent :

  • pour le champ des sciences de l’information de revues de presse professionnelle (Bulletin des bibliothèques de France, Documentaliste Sciences de l’information), de revues de presse fondamentale (La revue française de bibliométrie, Laforia, Cahiers du Lerass) et d’un ouvrage (IDT 96 Paris 21-23 mai 1996)

  • de revues en presse fondamentale et actes de congrès en biomécanique (AUTOMEDICA, Archives de physiologie et de biochimie, 21ème congrès de la société de biomécanique, ITBM, Fifth European Conference of medical and Health Libraries)

  • d’un ouvrage en biologie (C. R. Acad. Sc. Paris, t. 272, p. 1391-1393 (8 mars 1971) Série D). Nous avons inséré de plus des mémoires et articles de recherche disponibles sur Internet (l’origine des publications n’a pu être retrouvée), ainsi que des écrits didactiques

  • de revues de presse fondamentale en pharmacie (Journal de Pharmacie de Belgique)

Les auteurs sont soit des étudiants, soit des spécialistes du domaine (industriels ou universitaires du domaine public ou parapublic).

A terme nous comptons augmenter la taille de cette base et la faire passer à 1000 unités documentaires.

Notes
100.

A titre d’exemple nous avons mis environ 5 mn pour lire découper et caractériser un article de 5 pages.