2.2.3. Analyse discriminante

Nous avons procédé à une analyse discriminante, de type incrémentielle ascendante, portant sur l’ensemble des sujets pour lesquels le diagnostic était connu après l’analyse du questionnaire, soit 47 paires ; 4 observations supplémentaires correspondent aux paires dont le diagnostic restait incertain.

Nous avons entré dans l’analyse discriminante les paramètres de la main dominante seulement car nous n’avions pas l’écriture des deux mains pour tous les sujets ce qui nous aurait conduit à éliminer des observations.

Le but est de discriminer les paires sur l’écriture habituelle des sujets, la plus simple à obtenir.

Avec un niveau de tolérance laissé à 0.01 (valeur par défaut) et pour un F d’inclusion supérieur à 1, l’analyse inclut 11 variables.

Le tableau suivant donne la contribution des 11 variables du modèle à la discrimination d’ensemble, classées par valeurs croissantes du lambda partiel de Wilks . Les variables qui ne sont pas prises en compte ont un F d’inclusion <1.

Tableau 36. Synthèse de l’analyse discriminante
  λpartiel F niveau
  De Wilks d'exclusion p
CDLI 0,56 27,08 0,00
CX 0,61 21,66 0,00
CXS 0,64 19,36 0,00
CPMS 0,70 14,28 0,00
CLS 0,71 13,82 0,00
CD 0,72 13,42 0,00
CM 0,79 8,87 0,01
CV 0,89 4,39 0,04
CPMAS 0,89 4,17 0,05
CPMAX 0,91 3,45 0,07
CJ 0,93 2,59 0,12

Plus le lambda partiel de Wilks est petit, plus la contribution à l’ensemble de la discrimination est grande. Les variables majeures pour distinguer les groupes concernent donc la direction des lignes , le positionnement droite-gauche. La pression maximale et la juxtaposition contribuent le moins à la discrimination entre MZ et DZ.

La fonction discriminante est statistiquement significative à p.0000 avec un lamba de Wilks = 0.21

Les coefficients de la fonction, pour chacune des variables entrées dans l’analyse, sont donnés dans le tableau 37. Nous voyons que la fonction discriminante est plus lourdement pondérée par CDLI, CX et CLS.

Tableau 37. Coefficients de la fonction discriminante
  Coefficients
standardisés
Coefficients
bruts
CDLI 1,10 0,86
CX 1,16 2,65
CXS 0,87 0,87
CM 0,66 0,05
CPMS 0,85 0,16
CD 0,87 0,82
CLS -1,14 -2,20
CV 0,58 0,21
CPMAX 0,42 0,15
CPMAS -0,48 -0,13
CJ -0,34 -0,04
constante   -6,62

Le calcul des fonctions de classifications permet, pour chaque observation, d’établir un score d’appartenance à l’un des groupes et de classer l'observation dans le groupe qui correspond au score le plus élevé.

Tableau 38. Coefficients des variables pour les fonctions de classification
  Variable de classement
  DZ MZ
CDLI 7,88 4,60
CX 23,97 13,91
CXS 7,59 4,27
CM 0,42 0,22
CPMS 1,49 0,88
CD 6,79 3,68
CLS -18,68 -10,32
CV 2,35 1,55
CPMAX 1,66 1,11
CPMAS -0,50 0,01
CJ -0,11 0,03
Constante -44,55 -18,59

Les fonctions de classification permettent de reclasser correctement tous les DZ et 96.15 % des MZ : une paire est mal classée, la paire 39. Sur l’ensemble, on obtient 97.9 % de classements corrects.

Les paires 8 et 32 sont classées MZ, les paires 7 et 9 DZ, avec des probabilités d’erreur < 5% pour les paires 7, 8 et 9, à p.07 pour la paire 32.

Sur la figure suivante (figure 27), nous avons, pour chaque paire, représentée le carré de la distance aux centroïdes des deux groupes MZ et DZ(Annexe U).

Figure 27. Classification en fonction de la distance de Mahalanobis
Figure 27. Classification en fonction de la distance de Mahalanobis

Quand la distance à l’un des centres de gravité des groupes est grande, elle est petite en regard du centre de gravité de l’autre groupe, celui auquel appartient, le plus probablement, l’observation.

Pour les paires 75, 76, 37, 5 et 16, on voit que la différence entre le carré des distances est moins important. Ce sont celles pour lesquelles le risque d’erreur par la classification sur l’écriture est le plus grand, supérieur à 5 %, mais elle sont correctement reclassées (leur classification à partir du questionnaire ne faisait pas de doute, la probabilité d’erreur la plus élevée concernait la paire 37 à p.01).

En ce qui concerne la paire 32, le classement à partir d’un seul questionnaire l’attribuait également aux MZ.

La paire 7 était classée MZ à partir d’un seul questionnaire, très incomplet ; elle est classée DZ sur l’écriture avec une probabilité d’erreur à p.02 et ce résultat paraît plus fiable.

Les paires 8 et 9, pour lesquelles on n’avait pas d’information, sont classées à partir de l’écriture avec un risque d’erreur très faible, à p.0001, la paire 8 est classée MZ, la paire 9 DZ.

En ce qui concerne la paire 39, le risque d’erreur sur l’écriture (p.05) est plus important que celui sur la ressemblance physique (p.0000). Nous retiendrons donc, pour cette paire, son appartenance au groupe des MZ.

A l’issue de cette seconde analyse, basée sur l’écriture des sujets, nous avons donc pu classer toutes les paires de manière satisfaisante.