1.3.2. Sélection sur les inobservables

Une solution alternative (prenant en compte un niveau d’information différent) pour résoudre le problème inhérent de sélectivité est d’appréhender la sélection à partir des variables inobservables. Une première possibilité consiste à déterminer des estimateurs paramétriques. Pour se faire, il faut recourir à une modélisation jointe des résultats potentiels (Y ₀ , Y ₁ ) et de l’affectation au traitement T, en faisant l’hypothèse que ces trois variables dépendent de termes d’erreur inobservables, potentiellement corrélés entre eux. On suppose que la variable d’affectation au traitement est déterminée par un indice latent notée T*, appelé également la propension à être traité, linéairement dépendant d’un vecteur de variables explicatives Z et d’un résidu V, de sorte que l’on peut écrire :

T = 1(T* > 0) = 1(Z + V > 0)

où  est un vecteur de paramètres à déterminer et 1(.) ⁷⁴ est une fonction indicatrice prenant la valeur 1 si l’expression entre parenthèses est vraie et 0 sinon. Les variables de résultat latentes sont supposées être chacune engendrée par un modèle de régression linéaire de la forme :

Y_j = a + X_jβ_j+ U_j

où X _j est un vecteur de variables explicatives a priori différent de Z, β _j est un vecteur de paramètres associés à X _j et U _j est un résidu centré réduit. On suppose que les éléments inobservés sont indépendants des variables explicatives X et Z. La modélisation repose sur l’existence d’une dépendance entre les éléments inobservés affectant le traitement et les résultats potentiels.

En pratique, l’hypothèse souvent retenue est que les résidus V, U ₀ et U ₁ suivent une loi normale de moyenne 0 et de matrice de variances et covariances Σ, soit :

D’autres estimateurs paramétriques ont été considérés à travers des lois plus générales et plus flexibles que la loi normale. Lee (1983) propose notamment de considérer les lois de Student de degré v choisi (le cas de la loi normale correspond à la situation dans laquelle v = +∞).

A partir d’expériences de simulation et de mise en œuvre dans un cas concret, Heckman, Tobias et Vytlacil (2000) montrent que les biais en cas de mauvaise spécification peuvent être importants et que les résultats sont assez sensibles aux hypothèses sur la loi des perturbations. L’accent a donc été mis au cours des dernières années sur la possibilité d’identifier ce type de modèles sans faire d’hypothèse sur la loi jointe des perturbations, c’est-à-dire déterminer des estimateurs semi-paramétriques. Ce type de généralisation conduit à une complication très substantielle de la procédure d’estimation. En effet, plusieurs conditions doivent être réunies. La difficulté majeure réside dans l’identification des constantes a ₀ et a ₁ qui dans le cas d’estimateurs paramétriques découlait directement du fait que des formes particulières étaient imposées aux termes de sélectivité. Ceci requiert notamment la présence de variables affectant la décision de participation et non les résultats potentiels ce qui a priori n’est pas rigoureusement nécessaire lorsque l’on spécifie la loi des éléments inobservés. La différence principale est que lorsque l’on détermine l’espérance des résultats potentiels, la forme du biais n’est plus spécifiée. Cela implique également des conditions particulières sur la distribution du score que nous ne développerons pas ici.

L’estimation des modèles de sélectivité sous une forme semi-paramétrique se révèle donc difficile notamment par rapport à l’estimation des constantes qui sont déterminantes dans l’estimation de l’effet causal (Heckman et Honoré, 1990). Pour limiter les problèmes de mesure liés à la présence de biais de sélectivité, inhérent à toute évaluation de politiques actives, des expérimentations contrôlées ont été menées. En effet, cet environnement particulier permet de tirer de manière aléatoire l’échantillon des individus non traités à partir de celui de l’ensemble des individus postulant au programme étudié.

Notes
74.

Notation adoptée par Heckman et al. dans le Handbook of Labor Economics (1999).