Les portails Lyon 2 :
Intranet
-
Portail Etudiant
-
www
Evaluation de systèmes de recherche d’information, comportant une fonctionnalité de filtrage, pa...
par MICHEL Christine
-
1999
-
Université Lumière Lyon 2
Menu
Présentation générale
Consulter le document
Versions imprimables
Contact
Table des matières
Illustrations
Tableaux
Page de titre
Remerciements
INTRODUCTION
Chapitre I - L’évaluation
I-1 - Qu’est-ce que l’évaluation ?
I-2 - Qu’est-ce que l’information ?
I-2-1 - L’information comme quantité physique
I-2-2 - L’information contenu
I-2-3 - Information et connaissance
I-3 - La modélisation du système de recherche d'information
I-3-1 - L'approche systémique
I-3-2 - Description des mécanismes internes
a. La collection
b. La description
c. La recherche
d. La présentation
I-3-3 - La logique du système
a. Le modèle booléen
b. Le modèle utilisant la logique floue
c. Le modèle vectoriel
d. Le modèle probabiliste
I-3-4 - Des « boites noires » vers des tests diagnostic interne
I-3-5 - Récapitulatif du chapitre I-3
I-4 - La modélisation de l’utilisateur
I-4-1 - Les questions
I-4-2 - Des expérimentations en laboratoire aux expérimentations opérationnelles
I-5 - De la nécessité d’avoir des mesures de l’information
I-6 - Comment mesurer l’information ?
I-6-1 - Les méthodes quantitatives en documentation
I-6-2 - Les mesures de la quantité d’information
I-6-3 - Le problème de la pertinence
a. L’explication du jugement de valeur.
b. La collecte
c. La construction
I-6-4 - Les mesures de la pertinence de la recherche d’information
a. Les mesures quantitatives
b. Les méthodes qualitatives opposées aux méthodes quantitatives
c. Un moyen de construction de mesures quantitatives basé sur la théorie mathématique de la mesure
d. Les fondements théoriques.
A- Domaine et intervalle de définition de la quantité d’information
B- Quantité d’information d’ensembles de documents
C- Le service d’information
e. Application pour le calcul de la quantité d’information d’un ensemble réponse.
Chapitre II - Indicateurs de proximité prenant en compte l’ordre de présentation des documents
II-1 - Mesure de Tague pour la quantité informationnelle d’un document.
II-1-1 - Présentation de la mesure
II-1-2 - Discussion
II-2 - Comment exploiter la mesure de Tague dans un contexte différent ?
II-3 - La mesure de proximité ordonnée
II-3-1 - Formalisme du problème
II-3-2 - Définition de la mesure de proximité ordonnée.
II-3-3 - Théorème de la mesure de proximité ordonnée
b Application du théorème pour le choix d’une mesure de proximité ordonnée.
II-4 - Discussion
II-4-1 - Analyse des similitudes de calcul du retard de présentation dans le cas de la mesure de proximité et de la mesure de la quantité informationnelle de Tague.
II-4-2 - Perspectives de recherches dans le calcul du retard de présentation
II-4-3 - Perspectives de recherches pour la suppression de l’hypothèse 1
II-4-4 - Etude comparative des résultats obtenus avec un indice de Jaccard et une mesure de proximité ordonnée
II-5 - La mesure de proximité référentielle ordonnée
II-5-1 - Formalisme du problème
II-5-2 - Définition de la mesure de proximité référentielle ordonnée.
II-5-3 - Théorème de la mesure de proximité référentielle ordonnée
a - Démonstration
b - Application du théorème pour la construction d’une mesure de Rappel ordonné et d’une mesure de Précision ordonnée
II-6- Indices complémentaires utilisant le fait que le système possède une fonctionnalité de seuil d'exclusion
II-6-1 - Le seuil d’exclusion
a. Formalisme du problème.
b. Hypothèse 4 : Filtrage sans seuil d'exclusion
c. Hypothèse 5 : Filtrage avec seuil d'exclusion
d. Le seuil d’exclusion : Une variable supplémentaire à prendre en compte dans l’évaluation des systèmes de recherche d’information
II-6-2 - Ratios sens et structure
a- Eparpillement de sens
b. Eparpillement de structure
Chapitre III - Le projet Profil-Doc
III-1 - Présentation générale du projet
III-1-1 - Pourquoi découper les documents?
III-1-2 - Les fonctions d’usage
III-1-3 - Historique de Profil-Doc
III-1-4 - Le principe
III-1-5 - Le découpage des documents
a. Les propriétés propres au document entier
L’environnement de production : champ disciplinaire, profession et communauté de l'auteur
Le support de diffusion : Type de l'environnement éditorial, type d'article
b. Les propriétés propres aux unités documentaires
Type de l’unité documentaire
La fonction d’usage des différents types d’unités documentaires.
Forme discursive du texte
Style du document (SD)
III-1-6 - Description du profil de l’utilisateur
III-1-7 - Mise en place d’une fonction d’aiguillage
a. Sélection d’un sous corpus de la base
III-1-8 - La navigation dans les unités documentaires
III-2 - Réalisation du prototype
III-2-1 - La base
a -Choix et collecte des données
b - Description des propriétés
III-2-2 - La recherche d'information
a - Le traitement de la requête en langage naturel
b - Présentation et nouvelles potentialités de SPIRIT W3
c - L’interface d’interrogation (pour l’évaluation)
III-2-3 - La présentation des résultats
Chapitre IV - Le protocole d’évaluation
IV-1 - Problématique de l’évaluation dans PROFIL-DOC
IV-1-1 - Analyse des modalités de la description du corpus
IV-1-2 - Evaluation de la stratégie de filtrage Profil-Doc
IV-2 - Principe d’analyse des propriétés de description des données
IV-2-1 - Analyse de la dépendance entre propriétés
Test de signification du ²
IV-2-2 - Méthode d’analyse multidimensionnelle de la dépendance entre propriétés
IV-3 - Principe d’analyse de la recherche
IV-3-1 - Simulation de l’utilisateur dans sa recherche sur le contenu
a. La constitution de la « collection » de questions
b. Etude bibliométrique des questions selon leurs volumes de réponse
c. Echelonnage des questions
Partition-1 :
Partition-10 :
Partition-5 :
IV-3-2 - Simulation de l’utilisateur dans sa recherche d’information selon l’usage
a. Choix des caractéristiques de description des utilisateurs pour le modèle
b. Simulation du processus de filtrage selon l’usage
IV-3-3 - Simulation d’une interrogation ayant les fonctionnalités de filtrage de Profil-Doc
a. Le module d’interrogation automatique
b. L’interrogation avec simulation d’utilisateurs
c. Forme des résultats d’interrogation
IV-3-4 - Méthode d’analyse des résultats
a. Mesure de proximité utilisée
b. Processus de calcul
Etape 1 : Calcul du coefficient de Jaccard J pour chaque classe de la réponse à la question qij.
Etape 2 : Calcul de l’indice de proximité Pδ pour chaque question qij.
Etape 3 : Calcul de l’indice de proximité moyen μ P δ i pour chaque groupe Qi de la partition 5.
Chapitre V - Résultats
V-1 - Résultats d’analyse de la description
V-1-1 - Analyse unidimensionnelle des propriétés
V-1-2 - Analyse bidimensionnelle : test de dépendance entre propriétés
V-1-3 - Analyse multidimensionnelle : Visualisation cartographique des dépendances
a. AFC du croisement des propriétés « Type d’UD » et « Forme discursive »
b. AFC du croisement des propriétés « Type d’UD » et « Style »
V-1-4 - L’indépendance entre les modalités des propriétés de description des unités documentaires
V-2 - Résultats d’analyse de la recherche
V-2-1 - Caractérisation des stratégies
a. Les stratégies fédératrices de filtrages similaires
b. Les stratégies indépendantes
c. Tableau récapitulatif de la construction des familles et des stratégies
V-2-2 - Les facteurs d’impact du filtrage
a. Analyse comparative des principes de calcul du vecteur résultant
b. Analyse comparative des fonctions d’aiguillage
Profil P1 :
Profil P2 :
Profil P3 :
Trois conclusions se dégagent de ces analyses :
V-2-3 - Analyse de la recherche d’information
V-3 - Evaluation du système Profil-Doc
V-4 - Discussion du système Profil-Doc
CONCLUSION
La première phase d’un protocole d’évaluation consiste à modéliser les concepts ou des objets à évaluer.
La définition des méthodes de comparaison est la deuxième phase d'un processus d'évaluation.
BIBLIOGRAPHIE
ANNEXES
Annexe A -
Annexe B - Matrice d’association (1ere partie)
Annexe C - Matrice d’association (2eme partie)
Annexe D - Les vecteurs résultants
Annexe E - Partition de questions
Annexe F - Le fichier Profile.dtd
Annexe G - Le fichier Profile.xml
Annexe H - Le fichier Queries.dtd
Annexe I - Le fichier Queries.xml
Annexe J - Présentation des résultats d’une interrogation SPIRIT
Annexe K - Le calcul de D0 dans la mesure de Tague
Calcul de D0
Calcul des différents paramètres
Annexe L - Liste brute de la collection de questions avant traitement
Annexe M - Liste de la collection de questions après traitement
Annexe N - Courbes comparatives des calculs de proximités effectués avec l’indice de Jaccard classique et l’indice de Jaccard ordonné.