IV-2 - Principe d’analyse des propriétés de description des données

L’analyse factorielle est une méthode utilisée en analyse de donnée. Dans la préface de [CAI76], G. Morlat décrit la scission qui s’est opérée au sein de la communauté des statisticiens. Il y a d’un coté les statisticiens « anciens » ‘« qui ont appris et pratiqué la statistique mathématique classique, celle qui prétend formaliser l’induction, à la suite des statisticiens anglo-saxons, notamment des années 1900 à 1950 »’. De l’autre coté, il y a ‘« les statisticiens plus jeunes, qui ont appris sous la même étiquette de « statistique » des techniques bien différentes, s’appuyant sur un outil mathématique purement algébrique, et visant à décrire, réduire, classer, des observations multidimensionnelles ; ceux-là n’ont cure de l’induction et sont volontiers portés à proclamer que le statisticien doit mettre en oeuvre ses techniques d’analyse sans faire aucune hypothèse sur les phénomènes observés. Ils pratiquent « l’analyse des données ». »’

Benzécri a été l’initiateur en France d’une école de recherche utilisant l’analyse de donnée pour faire de la taxinomie, de la reconnaissance de forme. ‘« La reconnaissance des formes a pour objectif de pouvoir traiter mécaniquement des informations qui ne sont ni réduites à une expression logique séquentielle simple et définie à l’avance, ni représentées analogiquement par des grandeurs physiques continues (tension, intensité lumineuse...), mais gardent la multidimensionnalité présente presque partout dans la nature. .../... Une fois découvert des algorithmes de classification et de réduction du nombre de dimensions, on pourra les appliquer à des problèmes touchant de plus près à l’intelligence .../...par exemple reconnaître le thème d’un mémoire scientifique, le style (ou l’auteur) d’un poème, classer les types de maladies, faire une caractérologie des hommes d’après leur comportement... La tâche la plus nécessaire pour l’intelligence humaine est sans doute la synthèse : rassembler des données en grand nombre et y reconnaître les lignes essentielles. »’ 115

L’analyse factorielle est utilisée dans tous les domaines où l’on a affaire à des données massives : par exemple en sociologie et marketing pour faire des analyses d’enquêtes d’opinion, des analyses de segmentation de marchés, dans le secteur de la banque pour faire du « credit scoring », en météorologie, en médecine, etc. Lorsqu’elle est appliquée sur des corpus de textes, elle se fait dans le cadre de la statistique textuelle [LEB94]. Les objectifs des études sont aussi nombreux que divers : constitution de lexiques ou de thésaurus thématiques, organisation statistique entre les divers textes d’un corpus, études des distributions de formes lemmatisées, construction automatique de résumé, analyse de discours, exploration statistique de bases documentaires... Le congrès JADT 1998116, « 4èmes journées internationales d’analyse statistique des données textuelles » présente un panel de la diversité des travaux sur ce sujet.

L’analyse de données est aussi utilisée pour améliorer la recherche d’information documentaire. Les études menées ont pour objectif d’améliorer la recherche d’information sur le contenu en étudiant la sémantique du texte et/ou de la question sous l’angle de la statistique textuelle. Par exemple, nous pouvons citer les recherches menées par le groupe DIGITAL pour améliorer la recherche d’information sur internet par les moteurs de recherche. En se basant sur la méthode des mots associés, l’option Live Topics d’Altavista permet de regrouper les pages HTML réponses selon des catégories thématiques. Beaucoup moins de travaux de ce type sont menés sur la recherche d’information par des caractéristiques externes au contenu : l’auteur, le laboratoire, l’année, le pays... C’est dans cette optique plus particulière que nous voulons utiliser les méthodes d’analyse de données. En effet, comme nous l’avons précisé au chapitre III, Profil-Doc caractérise l’information stockée dans la base par un ensemble de propriétés externes au contenu. L’analyse de ces données selon les méthodes classificatoires de type AFC nous permettra d’observer s’il existe des dépendances entre les diverses propriétés et/ou entre les diverses modalités de ces propriétés.

Nous présentons dans les chapitres suivant les deux méthodes employées : le test du Khi2 et l’AFC.

Notes
115.

BENZECRI – L’analyse des Données tome I – La taxinomie . Edition Dunod – 1973 – 619 p.

116.

JADT 1998, « 4èmes journées internationales d’analyse statistique des données textuelles » - Organisées par l’Université Nice Sophia Antipolis et le Centre National de la Recherche Scientifique – Nice 1998 – 710 p.