3.2 Le problème de la multi-colinéarité

Classiquement, lorsque l’on essaye d’expliquer un phénomène observé (dans notre cas il s’agit des coûts de mobilité pour les ménages), il est nécessaire de choisir un modèle économétrique adapté à sa problématique. Ce modèle s’accompagne la plupart du temps d’une série de tests statistiques permettant de valider toutes les hypothèses du modèle économétrique choisi. Par exemple, dans le cas de la régression linéaire, des tests seront réalisés afin de vérifier que les résidus sont distribués selon une loi normale centrée réduite. Cependant, le problème majeur qui se pose à tous les modèles de type linéaire est la colinéarité entre les variables explicatives. Nous verrons plus loin comment, formellement, cela pose des problèmes. Notre but ici est de montrer que le problème existe bel et bien au niveau de la base de données dont nous disposons.

Dans le cadre conceptuel que nous avons défini précédemment, nous avons supposé qu’il existait un lien de réciprocité entre les deux blocs de variables explicatives : les caractéristiques socio-économiques du ménage et les caractéristiques de la forme urbaine de résidence. Mais un second problème peut se poser : au sein d’un bloc de variables, il peut aussi exister de fortes colinéarités entre certaines variables. En effet, il est tout à fait possible que le revenu du ménage soit lié au nombre d’actifs, ou encore à la catégorie socioprofessionnelle du chef de ménage. De même, l’accessibilité en transports collectifs peut être fortement reliée à la densité urbaine de résidence.

Notre base de données issue de l’enquête ménages de Lyon (2006) met bien en évidence la présence d’une forte multi-colinéarité entre certaines variables. Le tableau VI-4 suivant correspond à la matrice de corrélation (coefficients de Pearson) entre différentes variables parmi celles décrites précédemment.

Tableau VI-4 : matrice des coefficients de corrélation de Pearson
données par ménages revenu par UC % cadres nombre d'enfants densité humaine distance vol d’oiseau domicile travail accessibilité TC % industries % activités financières et immobilières
revenu par UC 1 0,67 -0,2 0,04 0,1 0,15 -0,08 0,24
% cadres 0,67 1 -0,5 0,45 -0,28 0,48 -0,5 0,45
nombre d'enfants -0,2 -0,5 1 -0,6 0,72 -0,61 0,57 0,52
densité humaine 0,04 0,45 -0,6 1 -0,6 0,82 -0,64 0,7
distance VO domicile travail 0,1 -0,28 0,72 -0,6 1 -0,65 0,65 -0,45
accessibilité TC 0,15 0,48 -0,61 0,82 -0,65 1 -0,61 0,74
% industries -0,08 -0,5 0,57 -0,64 0,65 -0,61 1 -0,6
% activités financières et immobilières 0,24 0,45 0,52 0,7 -0,45 0,74 -0,6 1

Source : E.M.D de Lyon (2006)

Le tableau VI-4 illustre tous les problèmes de multi-colinéarité issus de notre base de données. Nous faisons figurer en gras tous les liens dont la valeur absolue excède 0,6. Au sein du bloc des caractéristiques socio-économiques, on peut constater un fort lien entre le revenu et le pourcentage de cadres au sein d’une zone. Au sein des caractéristiques de la forme urbaine de résidence, on note des coefficients de corrélation élevés entre la densité humaine, l’accessibilité en transports collectifs et l’appariement spatial domicile-travail-étude. On remarque également que des activités économiques ont une certaine préférence pour leur localisation au sein de l’espace. Ainsi, on constate un fort lien négatif entre la densité humaine et le pourcentage d’activités industrielles dans une zone. En effet, ces dernières privilégient une localisation périphérique possédant une bonne accessibilité routière permettant d’exporter facilement leur production. A l’inverse, on note une corrélation positive entre la densité humaine et le pourcentage d’activités financières et immobilières au sein d’une zone. Ces dernières, comme on l’a vu au premier chapitre, privilégient une localisation centrale car elles sont très sensibles aux externalités informationnelles. Enfin, la colinéarité entre les deux blocs de variables explicatives peut s’illustrer par les liens forts qui unissent le nombre d’enfants dans le ménage d’une part et la densité humaine, l’accessibilité en transport collectif ou encore l’appariement spatial résidence-emploi-étude. Le signe négatif pour les deux premiers liens indique que les familles nombreuses se localisent de préférence en périphérie. Cela confirme que ces ménages ont une préférence pour les aménités naturelles en périphérie de l’espace urbain, ou plus simplement pour des logements plus grands et moins chers.