3.4.c La procédure de sélection des variables du modèle

Nous mettons en œuvre cette procédure pour sélectionner, parmi un certain nombre de variables candidates (celles de notre tableau VI-3), les plus significatives et les moins corrélées d’entre elles pour rendre compte d’un phénomène observé (ici il s’agit des coûts et des émissions issus de la mobilité urbaine des ménages). Nous empruntons à Hosmer et Lemeshow (2000, p. 116) la présentation de cette procédure de sélection faisant intervenir la statistique des ratios de vraisemblance. Bien que SAS©utilise plutôt la statistique du score dans la procédure de régression pas-à-pas, le principe reste exactement le même et peut aisément se transposer à la manière dont le logiciel opère pour sélectionner les meilleures variables du modèle.

Cette procédure de sélection est particulièrement utile lorsque le nombre de variables susceptibles d’expliquer un phénomène observé est important. La régression pas-à-pas effectue un processus de sélection progressive (forward selection) du modèle tout en se réservant la possibilité d’exclure à chaque étape certaines variables sélectionnées auparavant (backward elimination). Ces critères d’entrée et de sortie sont effectués en mesurant l’information que les variables peuvent apporter au modèle. La régression pas-à-pas suit un algorithme bien particulier que nous explicitons maintenant.

Lors de l’étape initiale (étape 0), on dispose de p variables susceptibles d’expliquer le phénomène que nous observons. Concrètement, il s’agit ici des variables de notre tableau VI-1. Le logiciel commence d’abord par évaluer la vraisemblance associée au modèle simplifié ne contenant que la constante β0 (aucune variable explicative n’est intégrée au modèle). Notons L0 le logarithme de la vraisemblance pour ce modèle simplifié. Le logiciel va ensuite effectuer p régressions logistiques correspondant à l’ensemble des modèles où chaque variable a été ajoutée séparément au modèle simplifié. Notons par exemple Lj 0 la vraisemblance du modèle où l’on a ajouté la variable xj à l’étape 0 de la régression pas-à-pas. Le logiciel effectue ensuite une mesure du rapport des vraisemblances entre le modèle simplifié et le modèle où l’on a rajouté la variable xj. On note Gj 0 ce rapport des vraisemblances avec :