5.4.4. Modélisation du choix de localisation des ménages à la cellule dans URBANSIM

La logique de modélisation de la localisation des ménages utilisée actuellement dans URBANSIM comporte certaines différences par rapport à celle que nous avons proposée et présentée auparavant. En fait, il s’agit toujours d’un logit multinomial, mais estimé d’une façon un peu différente.

URBANSIM propose une modélisation de la localisation des ménages à la cellule (les cellules étant de petites zones de surfaces égales). Dans la logique de SIMBAD, le niveau de désagrégation spatiale (la cellule) considéré correspond à l’IRIS. Ainsi, on pourrait imaginer non pas un modèle de choix d’un type d’IRIS (ou d’un niveau de densité ou d’urbanisation), mais un modèle de localisation à l’IRIS. Mais l’estimation d’une fonction d’utilité pour la localisation des ménages au niveau de l’IRIS s’avère inefficace. En fait, les IRIS ne sont pas définis en fonction de leur surface (ils ont des surfaces très différentes allant du centre vers la périphérie de l’aire urbaine), mais en fonction de l’effectif de la population qui se localise dans l’IRIS (la répartition des ménages entre les différents IRIS étant relativement uniforme). Comme la fonction d’utilité à estimer exprime la préférence des ménages pour une zone (en termes de nombre de ménages qui se localisent dans la zone respective), si on considère l’IRIS comme alternative de choix de localisation, les utilités des différentes zones vont être à peu près égales et indépendantes des caractéristiques des IRIS (en réalité, les préférences des ménages pour une zone dépendent des caractéristiques de celles-ci, comme l’accessibilité ou le prix immobilier, qui varient d’une zone à l’autre).

La solution qu’on a adopté pour dépasser cet inconvénient a été de construire des cellules de surfaces égales (250 m X 250 m) et de modéliser la localisation des ménages à ce niveau de la cellule. Pour cela, chaque IRIS a été décomposé en cellules, et ensuite on a déterminé le nombre de cellules de type habitat, qui seront prises en compte pour localiser les ménages. Les ménages de chaque IRIS ont été affectés aux cellules de type habitat correspondantes de l’IRIS de façon uniforme (les cellules du même IRIS auront la même densité, mais la densité varie entre les cellules des IRIS différents).

Le nombre d’alternatives étant trop élevé (il est pratiquement impossible d’estimer un logit multinomial dont la variable dépendante comporte 5810 alternatives (cellules de localisation)), on va estimer le modèle en faisant, pour chaque ménage, un tirage aléatoire d’un nombre plus réduit d’alternatives parmi les 5810 alternatives possibles (on va considérer 6 alternatives (on a estimé aussi un modèle en tirant 10 alternatives, qui a donné des résultats très semblables), parmi lesquelles on retrouve l’alternative effectivement choisie par le ménage (selon Ben-Akiva et Lerman (1985), dans les modèles comportant plusieurs variables socioéconomiques, si le nombre d’observations est suffisamment élevé, il convient de considérer un nombre relativement réduit d’alternatives par observation)).

Ben-Akiva et Lerman (1985) ont montré que, sous l’hypothèse d’indépendance des alternatives (propriété IIA), on va obtenir des estimations consistantes pour les coefficients  de la fonction d’utilité du modèle logit, en sélectionnant un échantillon aléatoire équiprobable d’alternatives. Toutefois, on peut obtenir des estimateurs plus efficients si on pondère les alternatives au moment du tirage, c’est à dire si on assure que la probabilité d’une alternative d’entrer dans l’échantillon tiré soit proportionnelle au nombre de logements disponibles correspondant. Mais, si la pondération des probabilités de tirage des alternatives proportionnellement au nombre de logements disponibles s’avère optimale pour la phase de simulation, cette méthode n’est qu’une stratégie de tirage intuitive du point de vue de l’estimation du modèle.

Ainsi, dans la procédure d’estimation (et dans celle de simulation aussi), chaque ménage qui doit être localisé est modélisé individuellement, un échantillon de cellules alternatives étant généré pour chacun des ménages. On estime les coefficients de la fonction d’utilité, à partir desquels on calcule les probabilités de localisation dans les différentes cellules, et ensuite, la méthode de Monte Carlo est utilisée pour sélectionner l’alternative qui sera affectée à chaque ménage.

Le modèle est bâti uniquement sur les ménages qui ont déménagé sur une période donnée (dans notre cas, une année). On a obtenu de l’INSEE une variable supplémentaire sur les ménages du RGP 1999, qui nous indique si le ménage a déménagé ou pas dans l’année précédente et qui nous a permis de sélectionner uniquement ceux qui ont emménagé dans l’un des IRIS de l’aire urbaine sur cette période (sachant qu’on ne dispose pas des caractéristiques de ces ménages au moment du déménagement, mais qu’on suppose que ces caractéristiques se sont maintenues constantes durant cette période d’un an). Cette base qui contient 91461 ménages qui ont déménagé en 1998 sera donc utilisée pour estimer le modèle de localisation des ménages à la cellule implémenté dans URBANSIM.

On va utiliser les mêmes variables (caractéristiques des ménages, des cellules, accessibilités) susceptibles d’expliquer les choix de localisation des ménages qu’on a considérées pour construire le modèle antérieur. Pour les caractéristiques des cellules, on a considéré les valeurs des caractéristiques de l’IRIS auquel appartiennent les cellules. Les variables caractéristiques des ménages seront introduites dans le modèle en construisant des effets croisés avec des caractéristiques des cellules. Par exemple, les variables de profil du ménage comme l’âge de la personne de référence ou le revenu seront croisées avec des variables indiquant le pourcentage des ménages du même type dans la cellule concernée, afin d’évaluer le degré de mixité sociale ou, au contraire, de ségrégation dans le territoire de l’aire urbaine.

Plusieurs combinaisons de variables ont été testées, et finalement on a retenu la formulation suivante pour la fonction d’utilité (tableau n° 88) :

Tableau n°88 : Coefficients estimés du modèle de choix de localisation résidentielle à la cellule
Variable Coefficient t de Student p-value
accessibilité gravitaire aux emplois 0.0004 33.03 0.000
accessibilité gravitaire aux emplois tertiaires -0.0006 -33.96 0.000
accessibilité gravitaire aux établissements secondaires 0.0661 30.25 0.000
accessibilité gravitaire aux grands commerces 0.0070 38.49 0.000
nombre d’arrêts de bus à moins de 1000 m -0.0461 -32.57 0.000
nombre d’échangeurs à moins de 15 min (VP) 0.0075 14.17 0.000
nombre de gares à moins de 30 min -0.0257 -19.95 0.000
nombre de stations de métro à moins de 1000 m 0.1915 13.21 0.000
temps au centre (VP) 0.0472 30.16 0.000
prix moyen au m 2 de l’immobilier collectif ancien 0.0007 29.93 0.000
prage<30 x tauxmenprage<30 3.3408 18.69 0.000
prage30-45 x tauxmenprage30-45 1.1454 12.97 0.000
prage>75 x tauxmenprage>75 4.3011 6.01 0.000
menrevbas x tauxmenrevbas -2.8740 -13.76 0.000
menrevhaut x tauxmenrevhaut 5.5761 25.40 0.000
mentaille1 x tauxmentaille1 1.8228 18.70 0.000
mentaille2 x tauxmentaille2 6.4583 20.94 0.000
mentaille>5 x tauxmentaille>5 -1.2431 -2.55 0.021

Source : Traitement URBANSIM

Dans le modèle retenu, tous les coefficients sont significatifs et le pseudo-R2 de McFadden est de 0,40, ce qui indique une bonne qualité du modèle et un pouvoir explicatif important des variables introduites.

Par rapport aux variables d’accessibilité, le fait que tous les coefficients sont significatifs montre que cette composante joue un rôle important dans les décisions de localisation résidentielle des ménages, et confirme l’hypothèse de l’existence d’un impact des transports sur l’urbanisation. Le signe positif des coefficients pour les variables accessibilité gravitaire aux emplois, accessibilité gravitaire aux établissements secondaires, accessibilité gravitaire aux grands commerces, nombre d’échangeurs accessibles en moins de 15 min et nombre de stations de métro à moins de 1000 m exprime le fait que l’utilité pour les ménages de se localiser dans une cellule augmente quand l’accessibilité correspondante à ces opportunités est élevée. Les signes des coefficients pour les autres variables d’accessibilité (qui sont apparemment contre-intuitifs) sont à prendre avec précaution, étant donné que les corrélations qui existent entre les variables explicatives d’accessibilité rendent difficile l’interprétation de ces coefficients.

Le signe positif (apparemment contre-intuitif, et qui est d’ailleurs très faible) du coefficient du prix immobilier au m2 traduit la relation positive entre le niveau de cette variable et la probabilité d’un ménage de se localiser dans une zone caractérisée par ce niveau du prix. L’explication réside dans le fait que le prix capitalise les externalités de la zone, étant déterminé également par d’autres caractéristiques des zones qu’on n’a pas introduites dans le modèle (qui sont modélisées dans le module du prix de l’immobilier d’URBANSIM et qu’il convient de ne pas introduire deux fois dans la séquence logique du modèle global), qui accroissent la demande des ménages de se localiser dans les zones respectives. (Il faut noter que l’équipe du projet parisien SIMAURIF a également estimé un coefficient positif pour le prix immobilier dans son modèle de localisation des ménages.)

Les coefficients correspondants aux termes d’interaction entre les caractéristiques des ménages – âge de la PR, revenu et nombre de personnes – et les pourcentages des ménages ayant les mêmes caractéristiques dans la cellule choisie montrent que, en général, les ménages ont tendance à se localiser dans une zone où il y a plus de ménages du même profil. Les ménages à bas revenu et les ménages de taille élevée (ayant des coefficients négatifs) font exception. Ils se localisent plutôt dans des zones où il y a moins de ménages résidents ayant le même niveau de revenu et respectivement de taille (en fait, il s’agit de ménages dont le niveau de vie est plutôt réduit, et il n’y a aucun intérêt pour ces ménages de s’installer dans des zones où habitent majoritairement des ménages ayant le même profil).

Etant donné que le nombre de variables d’accessibilité du modèle est assez élevé, et qu’entre ces variables existent de fortes corrélations, on va les remplacer par l’indicateur synthétique d’accessibilité, ce qui va simplifier le modèle et l’interprétation de la relation entre l’accessibilité et la localisation des ménages. Les coefficients de ce modèle simplifié sont présentés dans le tableau n° 89 :

Tableau n°89 : Coefficients estimés du modèle de choix de localisation résidentielle à la cellule
Variable Coefficient t de Student p-value
indicateur d’accessibilité agrégé 0.9823 141.27 0.000
prix moyen au m 2 de l’immobilier collectif ancien 0.0007 31.11 0.000
prage<30 x tauxmenprage<30 6.2844 37.02 0.000
prage30-45 x tauxmenprage30-45 1.3321 15.51 0.000
prage>75 x tauxmenprage>75 3.4495 5.03 0.000
menrevbas x tauxmenrevbas -2.8633 -16.01 0.000
menrevhaut x tauxmenrevhaut 5.1912 26.64 0.000
mentaille1 x tauxmentaille1 2.8486 32.17 0.000
mentaille2 x tauxmentaille2 6.7065 23.61 0.000
mentaille>5 x tauxmentaille>5 -7.2407 -15.95 0.000

Source : Traitement URBANSIM

L’introduction dans le modèle de l’indicateur synthétique d’accessibilité à la place des neuf variables considérées antérieurement a déterminé une légère baisse du pseudo-R2, qui est maintenant de 0,33.

Les constats sont les mêmes que dans le cas précédent. En revanche, maintenant on peut voir clairement la relation positive entre la composante globale d’accessibilité pour une zone et l’utilité retirée par les ménages de la localisation dans cette zone.

Les coefficients estimés seront utilisés pour calculer la probabilité de chaque ménage qui déménage (déterminés par le module de mobilité résidentielle) et de chaque ménage nouveau qui apparaît dans l’aire urbaine (déterminés par le module de transition démographique d’URBANSIM à partir des prévisions de l’évolution démographique faites par l’INSEE) de se localiser dans une cellule ou autre de l’aire urbaine.