2.3.1.La procédure

La procédure qui consiste à combiner les deux sources de données et à estimer un modèle commun s’appelle « l’enrichissement de données ». C’est Morikawa (cité par Hensher, Louvière et Swait, 2000) qui, le premier, a proposé une telle procédure. Son objectif était d’utiliser les données « préférences déclarées » afin d’identifier les facteurs explicatifs du comportement, ce que les données « préférences révélées » ne permettaient pas de faire, et ainsi d’obtenir des estimations plus précises de ces facteurs dans son modèle de préférences révélées. Ce courant de recherche a été ensuite développé par les travaux de Ben-Akiva et Morikawa (1990), Bradley et Daly (1997). Le paradigme commun à ces travaux est que les données « préférences révélées » sont considérées comme le standard, et que les données «préférences déclarées » ne servent qu’à combler les lacunes des premières, ce que nous illustrons par la figure suivante :

Figure 14 : Paradigme 1 de l’enrichissement de données
Figure 14 : Paradigme 1 de l’enrichissement de données

Les travaux de Swait, Louvière et Williams (1994) ont développé une seconde approche du problème : ils partent ainsi de l’idée que chaque source de données devrait être utilisée de manière à capter les aspects du processus de choix sur lesquels elle est le plus efficace. Les données RP sont ainsi utilisées pour fournir un équilibre sur le marché actuel, et les données SP sont utilisées pour fournir les informations concernant les facteurs explicatifs pour ce marché. Nous illustrons ce deuxième paradigme par la figure suivante :

Figure 15 : Paradigme 2 de l’enrichissement de données
Figure 15 : Paradigme 2 de l’enrichissement de données

Le mécanisme d’enrichissement des données est le suivant :

Supposons deux sources de données, l’une de RP et l’autre de SP, les deux traitant du même problème de choix (par exemple, le choix entre 8 types de jus d’orange). Chaque source de données possède son vecteur d’attributs, et certains sont communs aux deux sources de données. On considérera pour la démonstration que ces attributs communs sont, respectivement, XRP et XSP, et qu’il n’y a qu’un seul attribut qui soit spécifique à chaque type de données, noté Z pour les données RP et W pour les données SP.

Les fonctions d’utilité associées à chaque type de données sont donc de la forme suivante :

Ui RP = i RP + i RPXi RP + Zi + i RP ,  iЄ CRP

Ui RP = i SP + i SPXi RP + Zi + i SP,  iЄ CSP

Où :

  • i est une option parmi les ensembles de choix CRP ou CSP.
  • i RP et i SP sont les constantes spécifiques à une option pour chaque source de données
  • i RP et i SP sont les coefficients associés aux attributs communs aux deux sources de données
  •  et  sont les coefficients associés aux attributs spécifiques à chaque type de données.

Il est important de noter que l’assortiment de choix ne doit pas nécessairement être le même pour les deux sources de données, ce qui est également vrai pour les options constituant cet assortiment.

Si on fait l’hypothèse que les termes d’erreur sont indépendants et identiquement distribués (EV1), et ce, pour les deux sources de données, le modèle de choix correspondant peut être exprimé comme suit, avec respectivement RP et SP comme facteur d’échelle :

Le facteur d’échelle (« scale factor ») joue un rôle crucial dans la procédure d’enrichissement de données, c’est pourquoi il nous paraît important de revenir sur cette notion avant d’aller plus loin dans la description de cette procédure. Les deux expressions précédentes mettent en évidence le fait que le facteur d’échelle et les paramètres qui lui sont associés dans le modèle de choix sont inséparables. Il est donc impossible d’identifier un facteur d’échelle à l’intérieur d’une source de données particulière. Pourtant, ce facteur affecte de manière importante la valeur des coefficients estimés : plus il est petit, plus les paramètres sont élevés. Ce facteur d’échelle est inversement relié à la variance du terme d’erreur : 2 = 2 / 62, donc plus ce facteur est grand, plus la variance est faible, ce qui implique que les modèles qui décrivent « correctement » leur sujet d’étude auront un facteur d’échelle élevé.

Il existe donc un problème fondamental d’identification de ce facteur d’échelle dans la mesure où le facteur d’échelle et les coefficients formant la fonction d’utilité sont confondus, et ne peuvent être séparés dans aucune source de données, ce qui implique en retour que l’on ne peut comparer directement les paramètres provenant de différents modèles de choix. Ainsi, on ne peut déterminer si la différence observée entre, par exemple, les coefficients de prix issus de deux sources de données différentes est le résultat de différence d’échelle, des coefficients eux-mêmes ou des deux.

Pour en revenir aux équations précédentes, la procédure d’enrichissement des données implique de pouvoir estimer RP, , , RP, SP,  et SP. Pour simplifier, on normalise un des facteurs d’échelle, celui correspondant aux données préférences révélées le plus souvent ; le facteur d’échelle associé aux données préférences déclarées est donc un facteur « relatif » par rapport à celui des données préférences révélées. Le vecteur final à estimer est donc  = (RP, , , SP,  et SP). En faisant l’hypothèse que les deux sources de données proviennent d’échantillons indépendants, le log vraisemblance des données regroupées est la somme des log vraisemblance des données préférences révélées et des données préférences déclarées, ce qui représente une formulation relativement complexe (voir Louvière, Hensher et Swait, 2000, pp. 236-243).

Il s’agit ensuite de maximiser ce log vraisemblance afin de déterminer les valeurs des différents paramètres du vecteur final correspondant au maximum de vraisemblance , procédure qui s’avère très délicate. Il existe plusieurs méthodes. Hensher, Louvière et Swait (2000) en présentent deux :

  • la première, à l’origine proposée par Swait et Louvière (1993), est relativement « manuelle » : elle consiste à définir une série de valeurs pour le facteur d’échelle SP, entre 0 et 3 (l’expérience pratique tend à montrer que le facteur d’échelle est généralement inclus dans cet intervalle) ; comme le log vraisemblance est une fonction concave, il n’y a qu’un unique maximum. Il faut ensuite estimer, pour chaque valeur du facteur d’échelle, les paramètres du log vraisemblance groupé en utilisant le même type de procédure que pour un modèle LOGIT multinomial. On choisit ensuite ceux qui maximisent la valeur du log vraisemblance. Toutefois, avec cette méthode, les estimateurs de SP et de  ne sont pas efficaces.
  • la deuxième, à l’origine proposée par Bradley et Daly (1992), consiste à créer une structure hiérarchique « artificielle » (parce que la structure hiérarchique n’a pas vraiment de sens, mais elle est très pratique en terme de modélisation), avec une branche représentant les données RP et une branche représentant les données SP. Si on applique le raisonnement propre aux modèles hiérarchiques, la variance est constante à l’intérieur de chaque branche, mais elle varie entre les branches. De plus, et c’est là l’intérêt d’utiliser une structure hiérarchique, le facteur d’échelle pour chaque branche est égal à l’inverse de la valeur du nœud structurel. En effet, le ratio de la variance entre les deux branches est le suivant :

Ainsi, si l’on estime un modèle hiérarchique avec les deux sources de données, on obtient in fine l’estimation du facteur d’échelle d’une source de données relativement au facteur d’échelle de l’autre source de données, et ce, en déterminant les valeurs des nœuds structurels .