3.4 Choix du modèle économétrique pour expliquer les coûts de la mobilité des ménages

Si l’on tient compte des remarques précédentes, le premier modèle venant à l’esprit est celui de la régression linéaire multiple par l’utilisation de l’estimateur des moindres carrés ordinaires (MCO). Cependant, le modèle que nous souhaitons mettre en place se situe au niveau microéconomique, c'est-à-dire que nos individus statistiques sont des ménages. Or nous avons mentionné précédemment que nos estimations sur les revenus des ménages et sur les dépenses annuelles de transport possèdent un certain degré d’approximation. Par exemple, certains ménages (généralement composés d’une seule personne) ne se sont pas déplacés la veille du jour de l’enquête et sont affectés d’une dépense nulle. La présence de valeurs nulles dans un modèle linéaire peut rendre l’erreur du modèle dépendante des variables explicatives, ce qui constitue une violation de l’hypothèse concernant l’indépendance entre les erreurs et les variables explicatives. Cela peut notamment biaiser l’estimation des coefficients de la régression. Nous avons en outre rencontré fréquemment des problèmes d’hétéroscédasticité mis en évidence à l’aide de la statistique de Breuch-Pagan.

Il a donc été nécessaire de transformer la variable à expliquer (les coûts de la mobilité) en plusieurs classes ordonnées. La question est alors de savoir combien est-ce que l’on veut en définir et avec quel modèle. Si l’on définit des classes ordonnées de variables, le modèle a priori le plus adapté est le logit ordonné. Cette formulation suppose que les pentes des différents sous modèles expliquant la réalisation de chacune des modalités sont égales. Cependant, les différentes simulations (avec 3 ou 5 classes ordonnées) effectuées sous SAS© ont montré que cette hypothèse n’est pas valide. Nous avons donc fait le choix d’un modèle binaire cherchant à expliquer pourquoi les ménages ont des fortes dépenses dans leur mobilité urbaine. Une partition en trois classes nous a paru plus cohérente dans la mesure où nous raisonnons essentiellement sur des types de ménages, dont les effectifs peuvent s’avérer limités dans une partition en 5 classes où l’on chercherait à expliquer les très fortes dépenses.

Ainsi, pour chacun des trois indicateurs de durabilité, nous avons créé trois classes décrivant différents niveaux de dépenses et d’émissions. Plus concrètement, pour les émissions de CO2 par exemple, nous avons transformé la variable quantitative de quantité annuelle d’émissions de CO2 par ménage en une variable possédant trois modalités : émissions faibles, émissions moyennes et émissions fortes. De même pour les dépenses annuelles de mobilité, nous avons créé une variable qualitative de trois modalités : dépenses faibles, dépenses moyennes et dépenses fortes. La même manipulation a été effectuée pour le taux d’effort des ménages consacré à leurs transports. L’avantage de ces transformations est de conserver tous les éléments de notre base de données (alors que nous aurions dû éliminer les valeurs nulles et certaines autres valeurs aberrantes dans le cadre d’une régression linéaire) et également de s’affranchir de certaines approximations de calculs de coûts au niveau du ménage que nous avons mentionné précédemment.

Notre choix se porte donc sur un modèle logit binaire modélisant la probabilité de réalisation d’un événement par rapport à sa non-réalisation.