IV-2-2 - Méthode d’analyse multidimensionnelle de la dépendance entre propriétés

L’analyse de données recouvre deux domaines : l’analyse factorielle et la classification.

Nous allons utiliser le premier type de traitement ; l’analyse factorielle. Cette analyse se fait à partir d’un tableau de données à p lignes et n colonnes qui rassemble les données à traiter. En sciences humaines et sociales, l’analyse de données est utilisée pour globaliser et classifier un ensemble de réponses à un questionnaire. Le tableau de données rassemble les réponses d’un ensemble de n individus à un questionnaire comprenant p questions. A chaque individu est associé une colonne du tableau, les éléments du tableau étant les réponses aux p questions. Les lignes contiennent donc les valeurs du caractère choisi par les individus pour répondre à la question. Un individu ne donne qu’une seule réponse à chacune des questions. La réponse à la question j est choisie parmi « l’ensemble des réponses possibles à la question j » appelé encore « ensemble des modalités associées au caractère j ».

L’Analyse Factorielle des Correspondances traite des données qualitatives. Pour être utilisé dans le cadre d’une AFC, le tableau de données « individus x question » précédent est transformé en un tableau « individus x caractères » qui décrit en colonne les individus et en ligne l’ensemble des modalités des questions. Bien qu’ayant des représentations algébriques semblables, les termes individus et caractères différencient deux ensembles qui ne jouent pas des rôles identiques.

message URL FIG201.gif

La variable x ij prendra la valeur 1 si l’individu i a répondu à la question correspondante par la modalité j, sinon elle prendra la valeur 0. Chaque élément i et j de l’ensemble I des individus et J des caractères est représentable par des points dans un espace à (n-1) ou (m-1) dimensions. Lorsque l’ensemble des caractères des p questions est analysé nous pouvons parler d’analyse factorielle des correspondances multiple. Dans certains cas, les AFC multiples sont illisibles. On compare donc deux à deux les propriétés. On est alors dans les cas classique de l’analyse factorielle des correspondances.

Nous ne présenterons pas l’ensemble des calculs effectués dans le cadre d’une AFC. On peut les consulter dans [CAI97] et dans [BEN73]. Très brièvement, l’AFC va permettre de réduire à un espace à deux ou trois dimensions, l’espace de représentation des éléments des ensembles I des individus et J des caractères, initialement à n et m dimensions. Cette réduction sera opérée en fonction des proximités entre les éléments de I et J. En analyse linéaire les proximités sont calculées à partir de distances euclidiennes.

Rappelons que notre objectif est d’observer s’il y a des dépendances entre chacune des trois modalités des propriétés décrivant les unités documentaires : le type, le style et la forme de l’UD. Pour notre part, les individus seront les unités documentaires et les questions seront les propriétés de ces unités. Les « caractères » seront les modalités de ces propriétés.

Les unités documentaires ne valident qu’une modalité par propriété, nous obtiendrons donc un tableau « individus X caractères » disjonctif de données de 505 colonnes (pour les unités documentaires) et 22 lignes (pour les modalités de propriétés).

Le tableau « individus X caractères » qui permet d’organiser les données se présente sous la forme :

message URL FIG202.gif

La variable x ij prendra la valeur 1 si l’unité documentaire i est caractérisée par la modalité j de la propriété correspondante, sinon elle prendra la valeur 0.

Dans les faits, nous ne réalisons pas une AFC multiple. Nous construirons les trois tableaux de données suivants :

message URL FIG203.gif

Ces tableaux permettent de comparer deux à deux la dépendance entre propriétés.

Ce type de données nous permet de calculer, dans chacun des trois cas une valeur de ². Cette valeur donnera une première indication sur la dépendance des propriétés. Nous affinerons cette analyse en opérant une AFC.

Rappelons les modalités analysées avec le ² et l’AFC117.

Tableau IV-1 : Les propriétés spécifiques de caractérisation des unités documentaire
Type d’unité Documentaire 1 - Résumé et éventuels - mots clés
2 - Table des matières
3 - Introduction
4 - Description du contexte général
5 - Description du thème
6 - Environnement
7 - Expérimentation
8 - Développement
9 - Résultats
10 - Discussion
11 - Description méthode
12 - Conclusion
13 - Bibliographie
Forme discursive de l’unité Documentaire 14 - Descriptif
15 - Narratif
16 - Argumentatif
17 - Discours rapporté
Langage (style) de l’unité Documentaire 18 - Littéraire pur
19 - Littéraire contenant des données numériques
20 - Données numériques
21 - Calculs, équations
22 - Schéma, Représentation (algorithme, diagramme, image, )
Notes
117.

Pour avoir l’ensemble des propriétés de description des UD on pourra se reporter au tableau III-8.