6.1.c La procédure de sélection stepwise

Comme pour nos modèles à l’échelle individuelle, nous utilisons cette méthode de sélection des variables. Cette méthode combine des procédures d’entrée (forward) et de sortie (backward) pour sélectionner progressivement les différentes variables candidates. Nous fixons des valeurs de seuil d’entrée Pe et de sortie Pr respectivement à 0,10 et 0,15 en portant une attention particulière au phénomène de multi-colinéarité qui peut fausser les estimations de nos modèles. De la même manière que précédemment, SAS©utilise une statistique mesurant la différence d’information apportée par l’introduction d’une ou plusieurs variables supplémentaires dans le modèle pour savoir s’il y a lieu de les intégrer ou non. Cette statistique est basée sur l’équation fondamentale de la variance :

SS modèle (k variables) correspond à l’erreur du modèle de départ tandis que SS modèle (k+r variables) correspond à l’erreur du modèle auquel on a ajouté r variables explicatives supplémentaires. Enfin, MS modèle complet (p variables) correspond à l’erreur moyenne pour le modèle contenant toutes les variables explicatives candidates, soit l’ensemble des variables du tableau VI-23. On veut tester l’hypothèse H0 :

Sous H0, F suit une loi de Fischer à (r, n-p-1) degré de liberté. Si la valeur numérique de F issue de notre échantillon est suffisamment importante, alors sa p-value sera inférieure à la valeur seuil que nous avons fixé (5 %). C’est sur cette base que SAS©sélectionne et éventuellement rejette certaines variables explicatives candidates selon la même logique que dans le cas de la régression logistique.