3.4.a Explicitation du modèle utilisé

Dans un premier temps, nous cherchons les facteurs les plus influents concernant les coûts de la mobilité urbaine des ménages. L’emploi d’un modèle logit binaire permet de répondre à cet objectif, mais il ne permet pas de réaliser des prévisions quantitatives du changement de tel ou tel facteur sur les indicateurs de mobilité durable que nous avons choisi d’étudier. Le volet « prévisions » sera développé en deuxième partie de ce chapitre.

Dans le cadre de notre travail, nous nous intéressons à la probabilité de réalisation d’une forte dépense de transports, d’un fort taux d’émission ou encore d’un taux d’effort important. Par conséquent, on peut schématiquement écrire notre modèle de la façon suivante, en prenant, par exemple, la probabilité de réalisation d’une forte dépense pour un ménage donné :

Où signifie une combinaison linéaire des variables explicatives issues des deux blocs de notre cadre conceptuel, à savoir les caractéristiques socio-économiques du ménage et celles de la forme urbaine de résidence. Il est également possible, grâce à l’équation précédente, d’écrire le modèle en exprimant directement la probabilité de réalisation d’une forte dépense de transports :

La formulation générale d’un modèle logit binaire, c’est-à-dire un modèle où la variable à expliquer ne possède que deux modalités, et où les erreurs sont distribuées suivant une loi logistique, s’exprime selon l’équation suivante :

Où Pi correspond à la probabilité de réalisation de l’événement étudié pour l’observation i, les (p + 1) coefficients estimés du modèle, les (p+1) régresseurs du modèle et l’erreur aléatoire pour l’observation i. Notons que chaque coefficient peut être obtenu en dérivant partiellement le membre de gauche de l’équation ci-dessus par rapport au régresseur qui lui est associé, autrement dit, on a :

Cette équation montre que peut s’interpréter comme l’influence du régresseur sur le logarithme du rapport des probabilités (réalisation / non réalisation) lorsque tous les autres régresseurs sont maintenus constants. Donc si un coefficient est significatif dans la régression - par exemple celui associé à la densité sur le taux d’émission en CO2 – alors on peut affirmer que la densité possède un effet significatif sur le niveau d’émission indépendamment des autres variables présentes dans le modèle. Un signe positif indique une plus forte probabilité pour le ménage de posséder un fort taux d’émission de CO2. Inversement, un signe négatif indique que le ménage possède moins de chances d’émettre des quantités importantes de CO2. Dans cet exemple, on peut supposer que le signe du coefficient associé à la densité humaine est négatif, car un individu tend à moins se déplacer en voiture dans les zones de fortes densités. L’intérêt de notre travail est de trouver, pour chacune des variables explicatives de nos modèles, les éléments les plus significatifs expliquant le fort niveau de dépenses, d’émission ou de taux d’effort. Nous portons une attention toute particulière aux phénomènes de multi-colinéarité. En effet, il peut arriver que plusieurs variables significatives fortement corrélées soient présentes dans le modèle. Dans le paragraphe suivant, nous précisons la méthode de sélection permettant d’obtenir les variables les plus significatives, tout en ayant le moins de corrélation possible. Nous utilisons le logiciel SAS©pour effectuer l’ensemble de nos régressions. Nous précisons également les principales statistiques associées au modèle de régression logistique binaire.