Chapitre III - Le projet Profil-Doc

III-1 - Présentation générale du projet

III-1-1 - Pourquoi découper les documents?

D'une manière très schématique, dans une opération de recherche documentaire classique l'utilisateur se contente de formuler une requête. Le système apparie les mots de la requête avec ceux du dictionnaire qu'il possède et génère ainsi une réponse. Dans les systèmes référentiels la structure de la base assure un certain tri au niveau de la réponse. Au contraire, dans le cas des systèmes documentaires en texte intégral il est toujours possible de trouver des documents contenant un des termes de la question, cela ne veut cependant pas dire qu'ils seront vraiment pertinents pour l'utilisateur. Si ces systèmes savent presque toujours proposer une réponse à la demande de l'utilisateur, ils ne répondent que partiellement à ses besoins. ‘« C'est depuis longtemps une évidence que les volumes d'informations vont croissant et que parallèlement va croissant la masse d'information à consulter pour trouver une information pertinente .../... On peut faire un constat simple : si le bruit et le silence sont toujours à peu près les mêmes, par exemple de 50%, un utilisateur qui reçoit dix documents en réponse à une question, en trouvera cinq pertinents. Un utilisateur qui obtiendra cent documents, en trouvera sans doute cinquante pertinents, mais aussi cinquante hors sujet. Le facteur bruit devient une gêne très réelle pour l'utilisateur dès que le volume des réponses dépasse un certain seuil « tolérable » »’ [LAI94]. Certains avancent que le problème vient du fait que ces systèmes documentaires n'atteignent pas le sens de la question ou le sens du texte. Des chercheurs se sont donc sérieusement penchés sur des méthodes permettant de faire une analyse plus poussée du texte. Ils ont implémenté des analyseurs morpho-syntaxiques, basés sur les règles syntaxiques, mais ils se sont rendus compte que ces derniers ne "comprenaient" qu'une partie du contenu lorsque la langue et la syntaxe étaient correctes. Ils ignoraient totalement les sous-entendus, les expressions idiomatiques, etc., toutes ces formules particulières qui sont incompréhensibles sans l'expérience, le savoir et la culture du lecteur80.

Pour pallier aux limites de l'« indexation » et avoir une meilleure connaissance du fonds, les systèmes documentaires traditionnels et automatiques ont tenté de décrire les documents par des critères externes à leurs contenus. Ainsi en bibliothéconomie classique, la dimension d’un ouvrage, son nombre de pages..., sont autant de critères supplémentaires permettant de gérer le fonds. Mais il est rare qu’un utilisateur se serve de ces critères pour sélectionner des documents. Grâce aux systèmes de gestion de fichiers ou aux systèmes de gestion de bases de données, la recherche d’une notice par l'ensemble des champs (zones) la décrivant est devenue possible. Des champs définissant des caractéristiques externes au contenu ont ainsi pu être rajoutés : le pays, l’année de publication, le nom du laboratoire, etc.

Nous avons choisi de travailler avec la documentation scientifique et technique. Nous considérerons donc une documentation produite essentiellement par des disciplines appartenant aux sciences de type formel pur ou empirico-formel. La dénomination technique peut refléter soit l'appartenance à des techniques, soit à des disciplines dont les recherches conduisent à des applications techniques. Les documents produits par des disciplines appartenant aux sciences de type herméneutique81 pourraient faire l'objet de notre étude si leurs contenus déductifs, expérimentaux ou évaluatifs portent sur des applications des sciences empirico-formelles ou techniques.

Une étude approfondie sur certain nombre de textes, livres, thèses, articles de revues scientifiques a montré qu'on pouvait trouver, pour chacun d'eux, une structure générique facilement identifiable [BEN97]. En effet, dans la majorité des cas, un texte (article, conférence, rapport, ouvrage, etc.) a une structure générale. Il forme une unité car il est construit pour faire passer un message : résultats de synthèse, nouvelles pistes de recherche, etc. Cette unité matérielle et intellectuelle est le résultat d'un lien parfaitement établi entre ses différentes parties, celles-ci pouvant former à leur tour des unités indépendantes remplissant une fonction bien déterminée. Ainsi par exemple, la bibliographie est utilisée généralement pour étayer les propos cités dans les différentes parties du texte et donner au lecteur une idée, plus ou moins exhaustive, de tout ce qui a été écrit sur le sujet traité. Ceci représente d'une certaine manière le contexte du texte. Cette constatation nous a conduit à admettre que "l'éclatement" du document selon ces unités nous permet, tout en préservant l'unité globale du document (le lien entre l'unité documentaire et le document auquel elle appartient), de présenter à l'utilisateur une information plus affinée et plus facile à saisir. Nous appellerons ces unités : unités documentaires.

Mais cette structuration de document n'est pas unique. En effet, on peut aussi considérer les différents types de textes (publicitaires, scientifiques), le mode d'organisation du discours (narratif, argumentatif, etc.) ou même encore la structure physique (attributs typographiques, polices, espaces, etc.) comme des caractéristiques propres à discriminer une fraction du document.

Notes
80.

Ce champ sémantique est souvent appelé contexte global.

81.

L'"objet" de ces sciences sont des phénomènes de comportement humain et de ce fait, il serait difficile d'établir, à partir de la simple observation, des représentations formelles (modèles ou schémas) qui pourraient être utilisées pour vérifier des propriétés empiriques directement observables. En effet, ces phénomènes sont très imprévisibles et essentiellement contextuels.