0113.2. Le calcul statistique du coefficient de corrélation

Le calcul de r, coefficient de corrélation, nécessite de rendre compte, pour chaque distribution, de la dispersion de ses éléments. Ce caractère se dénomme l’écart-type et se symbolise par le signe σ. Il convient de rechercher σx et σy. La détermination de l’écart-type passe par le calcul de la variance (var) car la relation entre ces deux éléments est de nature arithmétique:

message URL FIG73.gif
L’accès à la variance renvoie au calcul de la moyenne ( message URL IMGL0.gif), valeur de tendance centrale. Rappelons que la variance recherche la différence entre toutes les valeurs de x et la moyenne, au regard de la population considérée (N). Dans la mesure où il s’agit d’une fraction de la population, nous procéderons à une correction d’échantillonnage en ramenant l’effectif à N-1 .
La formule de la variance, sachant que message URL IMGL1.gif, sera par conséquent la suivante:
message URL FIG74.gif

Appliquons ce calcul aux deux séries de données afin d’atteindre pour chacune d’elles σx et σy.

message URL FIG75.gif

Ces informations nous permettront de calculer le coefficient de corrélation selon une voie simplifiée où écart-type et co-variance seront combinés. Nous réserverons cette option à une vérification de r que nous nous proposons de déterminer à partir de la formule traditionnelle.

Il va être possible, dès à présent, de calculer précisément le coefficient de corrélation r. Pour faciliter ce calcul, nous allons regrouper dans un tableau plusieurs données complémentaires.

s i x i y i x i y i x i ² y i ²
1 6 5.916 35.496 36 34.999
2 7 6.062 42.434 49 36.747
3 11 16.316 179.476 121 266.212
4 8 15.666 125.328 64 245.423
5 11 13.742 151.162 121 188.843
6 14 16.6 232.4 196 275.56
7 12 15.958 191.496 144 254.658
8 14 16.8 235.2 196 282.24
9 9 18 162 81 324
10 10 14.183 141.83 100 201.157
11 14 18.3 256.20 196 334.89
12 14 17.05 238.70 196 290.702
13 14 18.116 253.624 196 328.189
14 14 17.366 243.124 196 301.578
15 6 13.516 81.096 36 182.682
16 6 7.2 43.20 36 51.84
17 12 18.475 221.70 144 341.326
18 13 16.683 216.879 169 278.322
19 14 14.842 207.788 196 220.285
20 12 17.075 204.90 144 291.556
21 10 18.225 182.25 100 332.151
22 9 10.116 91.044 81 102.334
23 14 17.858 250.012 196 318.908
24 9 12.975 116.775 81 168.351
25 10 17.642 176.42 100 311.240
26 8 15.375 123 64 236.391
27 7 13.608 95.256 49 185.178

Le coefficient de corrélation s’élabore en tenant compte des variations de deux distributions et des variations de leur union. La formule brute devient alors un peu complexe:

message URL FIG76.gif

A la lecture de cette construction, cinq données apparaissent comme particulièrement dominantes:

Σx, Σy, Σxy, Σx², Σy²

Le tableau élaboré auparavant va permettre de calculer rapidement ces cinq données:

Σx Σy Σxy Σx² Σy²
288 403.665 4498.79 3288 6385.762

L’application de la formule nous donnera le résultat suivant: r = 0.700834889, ce qui, rapporté à trois chiffres après la virgule et associé à l’usage conventionnel de l’écriture anglo-saxonne, aboutira à l’égalité suivante:

r = .701

Nous avons signalé, en tout début de calcul, que l’écart type intervenait dans le calcul du coefficient de corrélation. C’est en effet une seconde voie possible que nous allons maintenant explorer dans le but de confirmer ou non le résultat déjà établi sur r. Pour cela, nous évoquerons la notion de co-variance (co-var) qui est, d’une certaine manière, une variance attribuée simultanément à deux distributions. Le calcul de cette co-variance obéit à la construction suivante:

message URL FIG77.gif

Le score atteint par la co-variance sera alors: co-var = 7,424.

Rappelons par ailleurs que les écarts-types de chaque série s’établissent comme suit:

σx = 2.882 et σy = 3.673

Le calcul de r va correspondre à la division entre la co-variance et le produit des écarts-types:

message URL FIG78.gif

Cette fraction aboutira à une valeur de r égale à 0,701303608. Une certaine différence se manifeste dans le résultat brut par rapport à ce qui avait été trouvé précédemment: r = 0.700834889. Cette faible disparité, un peu plus de 4 dix-millièmes, est liée aux approximations faites par la réduction à trois chiffres après la virgule lors des calculs intermédiaires. Au demeurant, lorsque le second résultat final est aussi réduit à trois chiffres après la virgule, la valeur de r devient identique et confirme par conséquent la validité du premier calcul.