6.1.b Le modèle de régression multiple et les tests de validation

Les trois modèles que nous envisageons ici peuvent s’écrire schématiquement de la manière suivante :

Nous cherchons ici à approximer une relation fonctionnelle entre, pour l’exemple, la vulnérabilité des ménages (variable à expliquer Y) par un ensemble de variables explicatives X (variables de formes urbaines et de caractéristiques socio-économiques des ménages) selon la relation fonctionnelle suivante :

Dans l’équation (1), Y un vecteur représentant les n observations de la variable à expliquer, β le vecteur (p+1) des coefficients à estimer, X la matrice de n lignes (observations) et p+1 colonnes des variables et de la constante du modèle, et enfin ε le vecteur des n termes d’erreurs. Comme nous ne disposons que d’un nombre limité d’observations, l’estimation du modèle s’écrit :

Ŷ représente le vecteur des variables estimées du modèle et B le vecteur des bk, estimateurs des moindres carrés des paramètres inconnus βk. On peut obtenir la solution B du modèle de régression multiple en inversant la matrice X’XX’ désigne la transposé de X. Cette solution s’écrit :

Cette estimation (3) n’est possible que si la matrice variances-covariances des variables explicatives X’X est inversible. Cela suppose notamment une absence de colinéarité entre les régresseurs. Si, de plus, on suppose que les termes d’erreurs sont indépendants et identiquement distribués selon une loi normale de moyenne nulle et de variance constante σ² (homoscédasticité), alors la variance de chacun des coefficients estimés s’écrit :