Quelques brefs rappels théoriques concernant l’analyse statistique implicative.

Quand a implique b mais pas toujours

L’analyse implicative se propose de donner un sens statistique à des expressions du type a => b dans le cas où l’implication est non stricte, c’est-à-dire que lorsque la variable a est vraie, b a peu de chances d’être fausse.

Selon les valeurs logiques prises par a et b, la proposition (a => b) est vraie ou fausse.

si (a est faux et b est faux) alors a => b est vrai.

si (a est faux et b est vrai) alors a => b est vrai.

si (a est vrai et b est vrai) alors a => b est vrai.

si (a est vrai et b est faux) alors a => b est faux.

Nous pouvons résumer ces cas dans les tableaux suivants :

a b a => b
Faux Faux Vrai
Faux Vrai Vrai
Vrai Faux Faux
Vrai Vrai Vrai

Notons que 1 correspond à la modalité« vrai » et 0 à la modalité « faux ».

Partons de l’exemple donné par Régis Gras (GRAS, 1996, p.29) que l’on ait une population E, avec Card(E) = 100 (sachant que Card correspond au nombre d’évènements réalisés dans E). Soit deux variables A et B (binaires), avec Card (A) = 36 et Card (B) = 50.

V
Sujets
a b
1 0 0
2 0 1
3 1 1
4 1 0
5 0 0
6 1 1
7 1 1
8 0 0
9 0 1
10 0 0
Total 4 5

A partir de ce tableau, on calcule la somme des couples définis précédemment ce qui donne le tableau ci-dessous.

a
b

1
0 Marge
1 3 2 5
0 1 4 5
Marge 4 6 10

Ce tableau est utilisé pour représenter la situation d’implication statistique. En effet, le nombre 3 du tableau de contingence signifie qu’il y a 3 sujets qui ont la réponse vrai (=1) pour la variable a et vrai (=1) pour la variable b (sujets 3, 6 et 7 du tableau précédent).

Ci-dessous un tableau qui permet de comprendre comment le précédent est construit.

Tableau des notations des effectifs conjoints et marginaux :

a
b
1 0 Total
1      
0
   
Total      

De ce tableau, nous pouvons tirer la formule d’indépendance ci-dessous :

Dans notre cas, si a et b étaient indépendants, le nombre de réponses lorsque a est vrai et b faux) serait égal à 5*4/10 ce qui n’est pas le cas.

A l’origine, pour ce genre de modélisation, la loi pressentie était la loi binomiale. La méthode de maximum de vraisemblance consiste à proposer la valeur pour laquelle la probabilité de l'observation dans le modèle est la plus forte. En appliquant cette méthode, on a pu approximer cette loi par une loi de Poisson.

De l’indice d’implication à l’intensité d’implication

On peut alors construire (Gras, 1996, p.32) un indice d’implication et une intensité d’implication de la façon suivante :

NB : Q est la variable aléatoire de l’indice d’implication. q est sa réalisation.

A ne pas confondre avec φ qui correspond à l’intensité d’implication.

Le graphe implicatif, l’arbre hiérarchique ou cohésitif

De ce concept statistique dérivent deux représentations graphiques :

le graphe implicatif

l’arbre hiérarchique dit cohésitif

Tout d’abord, le graphe implicatif permet de voir les liens d’implication entre plusieurs variables. En effet, le principe du graphe est de calculer les indices d’implication. Puis on représente les variables dont les liens sont les plus forts.

Ci-dessous un exemple de graphe implicatif à partir de données prises au hasard. Les flèches rouges (ex : entre V109 et V117) représentent un lien à 99%, les bleues (ex : entre V75 et V83) un lien à 97% et les vertes (ex : entre V48 et V01) un lien à 95%.

Figure 17 : Exemple de graphe implicatif
Figure 17 : Exemple de graphe implicatif

Par exemple, si V04 est vraie alors V02 est vraie dans 99% des cas. Lorsque V59 est réalisée, cela implique que V02 est également réalisée à 97%. Quand V100 est égale à 1, on a 95% de chances que V02 soit égale à 1.

Lorsque V02 est vraie, il y a une probabilité de 95% que V54 soit vraie. Par conséquent, si nous reprenons le raisonnement précédent, nous pouvons en déduire que lorsque au moins une des trois variables (V04, V59 et V100) est vraie, V02 se réalise, ce qui entraîne la réalisation de V54.

La deuxième représentation illustrant le concept d’implication statistique est l’arbre hiérarchique. Cette figure représente les variables avec leur significativité présentée sous forme de niveaux, à partir de données tirées au hasard.

Figure 18 : Exemple d’un arbre cohésitif
Figure 18 : Exemple d’un arbre cohésitif

Par ce graphique, nous pouvons en conclure qu’il y a une implication entre la variable V02 et la V05 (de même pour les variables V06 et V01). De plus, la variable V03 implique le couple de variables constitué de V02 et V05. L’implication est contraire pour ce qui concerne le deuxième cas. En effet, c’est le couple de variables V06/V01 qui contribue à la réalisation de la variable V04.

L’analyse des similarités

Il existe un deuxième concept nécessaire pour comprendre le fonctionnement de la classification ascendante hiérarchique : l’analyse des similarités. Selon I.C. LERMAN, cette analyse consiste à étudier des classes de variables semblables, grâce à la création d’une typologie. Cette typologie est créée de la manière suivante : à partir de l’ensemble des variables, le logiciel regroupe celles-ci en classes de taille de plus en plus grande, dont l’effectif est de moins en moins important.

Nous allons vous exposer brièvement l’arbre des similarités. Ce graphique se construit de la manière suivante : on réunit en une classe, au premier niveau, les deux variables qui se ressemblent le plus au sens de l’indice de similarité ; puis on fait de même pour deux autres variables ou une variable et une classe déjà formée et ainsi de suite.

Figure 19 : Exemple d’un arbre des similarités
Figure 19 : Exemple d’un arbre des similarités

Plus le niveau de significativité est haut (exemple : V02/V05), plus on a une forte corrélation entre les variables.

« La distance implicative d’un individu x à la classe C est le nombre :

Rappelons que φ correspond à l’intensité d’implication définie précédemment.

Ce calcul permet de comprendre comment le niveau de significativité est déterminé. Plus cette distance est grande, moins les individus sont liés.

Il est possible d’effectuer le même type de traitement sous le logiciel StatBox que sous CHIC. Voici ce que l’on obtient :

Figure 20 : Exemple d’un dendrogramme obtenu à l’aide du logiciel StatBox
Figure 20 : Exemple d’un dendrogramme obtenu à l’aide du logiciel StatBox

Contrairement au logiciel CHIC, StatBox propose des dendrogrammes où la racine se situe en haut. En effet, l’axe des ordonnées est inversé : les valeurs négatives sont situées en haut du graphique et les valeurs positives en bas. Ainsi, les nœuds représentant les similarités les plus fortes sont positionnés dans le bas de la représentation. Lorsqu’on tronque le dendrogramme à un certain niveau de ressemblance, cela crée une partition regroupant plusieurs classes de modalités dont la similarité est proche.

Citons pour mémoire d’autres exemples d’approches de l’implication statistique cités par R. GRAS (Gras, 1996, p.34-36) :

J. Loevinger (1947) : indice définissant la quasi-implication de a sur b

J. Pearl (1988), S. Acid (1991), A. Gammerman (1991), Z. Luo (1991)

Pour ces derniers, cette expression correspond à l’implication entre a et b.

H. ralambrodrainy (1991) avec le système GENRED

Ce système part du principe que la règle d’inférence est pertinente lorsque, pour deux seuils a et b donnés par l’utilisateur, les deux équations suivantes se vérifient :

M. SEBAG (1991) et M. SCHOENAUER (1991)

Leur système, comparable au précédent, retient la règle d’inférence au seuil α, si :

ou cette relation équivalente :

Y. SCHEKTMAN (1992), J. trejos (1992), N. troupe (1992), E. diday (1991), M. O. menessier (1991)

Pour juger de l’implication statistique de a sur b, ces chercheurs calculent la probabilité conditionnelle suivante : P [B/A].

J. G. GANASCIA (1991)

Cet indice permet de calculer l’incertitude de l’implication a=>b.