2.1.3. L’estimation des données manquantes sur les revenus déclarés

Les revenus imposables des foyers fiscaux étant bien renseignés, l’estimation des données manquantes concerne principalement les revenus déclarés des ménages fiscaux à cause des exigences du secret statistique. Cela nous conduit à choisir une méthode pour produire ces informations sur l’échelle la plus fine de l’IRIS. Parmi plusieurs méthodes d’imputation des données manquantes (Armoogum et Madre, 1998), nous utilisons des simulations par des régressions multiples. À travers cette méthode, nous utilisons l’ensemble des autres variables renseignées au niveau des revenus par quartiles ainsi que d’autres variables socio-économiques pour estimer une équation de régression. Les cellules vides seront ensuite remplacées par les résultats de l’équation. Selon les outils de mesure choisis (Cf 2.2) nous sommes amenés à estimer le revenu moyen ainsi que les revenus par décile permettant de définir la distribution des revenus par quartier –IRIS.

L’estimation des revenus moyens par UC manquants en 2001 se fait en plusieurs étapes. Tout d’abord, nous cherchons cette information sur la base de 2002. Si elle n’est pas disponible, nous utilisons les autres données renseignées en 2001, à savoir les revenus par quartile, le revenu médian, le revenu moyen de la commune d’appartenance de l’IRIS ou les variables socio-économiques quand le revenu moyen de la commune n’est pas diffusé parce que l’IRIS est une petite commune. Nous construisons quatre modèles de régression pour estimer le revenu moyen sur l’ensemble des aires urbaines (Annexe 1), selon la disponibilité de ces données. C’est le 3ème quartile qui explique le mieux la variance du revenu moyen dans le premier modèle (98 %). Le revenu médian, disponible à un seuil de 50 ménages, explique 92 % de la variance dans le deuxième modèle. Le revenu moyen de la commune d’appartenance explique 64 % de la variance dans le troisième modèle. Enfin, c’est le nombre de cadres qui explique le mieux la variance du revenu (57 %) dans le dernier modèle. Il explique, avec le nombre de chômeurs par IRIS, plus de 70 % de la variance. Cela dit, il y a très peu d’IRIS dont les revenus sont estimés à partir de ce dernier modèle. Nous montrons en annexe 2 le nombre d’IRIS par aire urbaine estimés pour chaque modèle. Si l’information n’est pas diffusée pour le revenu moyen en 2001, nous complétons par le revenu moyen de 2002, sinon nous l’estimons au 3ème quartile, au revenu médian, au revenu moyen de la commune ou seulement à partir des variables socio-économiques (RGP 1999). Le niveau de diffusion du revenu moyen des IRIS est élevé dans une grande partie des aires urbaines. Même si le pourcentage des IRIS dont le revenu moyen est connu dans certaines urbaines est faible (Metz, Dijon, Amiens, Besançon, Pau, Agen…), ces IRIS regroupent la plupart de la population de l’aire urbaine. Il ne faut pas oublier que les revenus moyens seront pondérés par la population de l’IRIS pour calculer les indices d’inégalité spatiale, ce qui minimise l’impact d’une éventuelle erreure dans l’estimation.

Pour l’analyse plus fine de la ségrégation spatiale en 2001 prenant en compte la distribution des revenus à l’intérieur même du quartier, nous estimons les déciles à partir des données socio-économiques issues du RGP 1999. Chaque décile est estimé dans une aire urbaine à partir d’une régression de type stepwise sur des données des catégories socioprofessionnelles (cadres, chômeurs, ouvriers…), de la taille du ménage ou le niveau de motorisation par IRIS. Par exemple, 50 % de la variance du 1er décile est expliqué par le nombre de chômeurs à Lyon (46 % à Marseille et 61 % à Lille) alors que 62 % de la variance du 9ème décile est expliquée par le nombre de cadres par IRIS (58 % à Marseille et 69 % à Lille). Ces données, une fois estimées, vont servir pour construire des classes de revenus, par interpolation, et analyser leur répartition dans les trois aires urbaines de Lyon, Lille et Marseille (Cf. chapitre 5).