3.3.8. Construction d’autres variables combinant des données de plusieurs sources

En combinant les données des différentes sources, on a également calculé un certain nombre d’indicateurs (transformations des variables originales) susceptibles d’avoir un pouvoir explicatif plus élevé dans le modèle comparativement aux variables simples à partir desquelles on les a construits.

C’est le rapport entre la population totale (nombres d’individus) et la superficie intégrale de l’IRIS.

C’est le rapport : Nombre d’emplois / Nombre d’habitants.

Se calcule selon la formule : (Population + Emplois) / Surface intégrale du territoire.

Nombre de logements / Surface

Se calcule comme rapport entre la population active occupée et la population active totale de l’IRIS.

Dans la population synthétique de ménages générée à partir des données semi-désagrégées de recensement, on n’a pas d’informations sur le revenu des ménages. Etant donné le fait que dans le modèle de localisation on va introduire aussi une segmentation de la population des ménages selon leur niveau de revenu par u.c., il a été nécessaire d’imaginer une procédure d’estimation de cette variable en se basant sur des valeurs connues des autres variables pour chaque ménage. En fait, on a cherché à attribuer une classe de revenu à chaque type de ménage défini en fonction des variables qualitatives pour lesquelles on a l’information du RGP au niveau semi-désagrégé, en utilisant aussi l’information agrégée sur la distribution des revenus à l’IRIS fournie par la DGI , selon une procédure probabiliste.

Pour estimer ce revenu, on a utilisé les données de l’Enquête Ménages Déplacements de 2006 (avec un échantillon d’environ 7000 ménages).

On a comme variable à estimer le Revenu par u.c., et on a testé plusieurs possibilités de classifier les ménages selon cette variable :

Finalement, les résultats statistiques nous ont conduit à retenir la variable en trois classes :

  1. les 20% les plus pauvres (< décile D2)
  2. les 60% de revenu moyen (D2 – D8)
  3. les 20 les plus riches (> D8).

Cette classification a également été retenue afin d’identifier les ménages les plus pauvres et les plus riches, ce qui permettra une analyse des sorties du modèle SIMBAD en fonction de ces trois classes de revenu.

Les variables qu’on a choisi pour estimer le revenu des ménages (dont on dispose dans les deux fichiers : la base de données désagrégée du RGP 1999 et l’Enquête Ménages Déplacements 2006) sont les suivantes :

Afin de déterminer quelles sont les variables qui expliquent le niveau du revenu d’un ménage et d’affecter à chaque ménage un niveau de revenu, on a utilisé les méthodes statistiques de l’analyse discriminante et de la régression logistique.

  1. On a estimé d’abord un modèle explicatif en introduisant toutes les variables potentiellement explicatives du revenu, en essayant de ne retenir que les variables significatives du point de vue statistique. L’application des deux méthodes nous a conduit à retenir trois variables :

La qualité du modèle a été satisfaisante, avec un pourcentage de ménages correctement classés par le modèle estimé de 62%. Pour chaque type de ménage (en fonction des différents niveaux des trois variables explicatives on a 2X3X5=30 types de ménages) on a calculé les probabilités d’affectation à l’une des trois classes de la variable explicative revenu par u.c. (classification 20% / 60% / 20%), que l’on va utiliser pour affecter à chaque ménage du RGP 1999 une des trois classes de revenu.

  1. En essayant d’améliorer les résultats, on a considéré une variable de localisation des ménages en 4 classes (centre, première couronne, reste du Grand Lyon, périphérie) pour segmenter la population et pour estimer plusieurs modèles pour chacune des segments de localisation définis. Malgré la segmentation, les résultats n’ont pas changé, le pourcentage de ménages correctement classés par les modèles estimés variant entre 57% et 63%.
  2. On a encore essayé d’affiner les résultats, en estimant deux modèles différents, l’un seulement pour les ménages dont la personne de référence est retraité, et l’autre pour toutes les autres catégories de ménages. Pour le premier groupe de ménages on a obtenu, logiquement, que les variables explicatives du revenu étaient le nombre de VP et le statut d’occupation du logement (le taux d’activité joue un rôle marginal, lorsque la majorité de ces ménages n’ont plus d’actifs dans leur composition), le pourcentage de ménages correctement classés étant de 65%, et pour le deuxième groupe, on a retenu les trois mêmes variables qu’auparavant, avec un pourcentage de ménages correctement classés de 62% (pratiquement identique à celui obtenu par le modèle global).