3.4.b Les principales statistiques de qualité du modèle

Nous avons effectué différents tests statistiques pour connaître la validité et le pouvoir explicatif global du modèle de régression, le pouvoir explicatif de chacune des variables sélectionnées, et également s’il y a lieu d’intégrer telle ou telle variable dans le modèle. L’estimation des coefficients du modèle de régression logistique est déterminée par un algorithme qui cherche à maximiser la vraisemblance de l’échantillon observé. La vraisemblance d’un échantillon est une grandeur statistique qui renseigne - étant donné les coefficients - sur la probabilité d’observer l’échantillon que nous étudions (ici il s’agit des 8 865 ménages sur lesquels nous avons calculé, pour chacun d’entre eux, les coûts annuels de leur mobilité urbaine). Autrement dit, plus la vraisemblance d’un échantillon est élevée, meilleur est le modèle. Une fois que les coefficients ont été calculés, différents tests sont menés concernant leur pouvoir explicatif.

Nous n’envisageons jamais le modèle complet, puisque certaines variables explicatives apportent une information redondante (phénomène de multi-colinéarité). Les tests servent en fait à sélectionner les meilleurs sous-ensembles de variables explicatives des coûts annuels de la mobilité, des émissions de CO2 et du taux d’effort des ménages de manière à ce que les corrélations entre variables explicatives soient minimales. Nous explicitons maintenant les procédures statistiques envisagées pour élaborer les différents modèles explicatifs.