2.3.3. L’estimation et la validation des modèles de choix discrets

L’estimation d’un modèle de choix discret se fait généralement en utilisant la méthode du maximum de vraisemblance de Fisher. Le modèle est estimé à partir d’un échantillon. Elle consiste à définir une fonction de vraisemblance (L(θ)) et à chercher la valeur des paramètres qui rend cette fonction maximum. La fonction de vraisemblance exprime la probabilité d’obtenir l’échantillon de N observations indépendantes, étant donnée la distribution de probabilité qui est le modèle dont on cherche le vecteur des paramètres à estimer.

L’information dont on dispose est le choix effectué, les valeurs des caractéristiques des individus et des différentes alternatives.

Pour apprécier la précision des estimations, on dispose d’une série d’indicateurs et de tests statistiques.

Une première mesure de la précision de l’estimation est l’écart-type de chaque coefficient estimé, utilisé pour construire l’intervalle de confiance dans lequel doit se situer la valeur réelle du paramètre et les t de Student, calculés comme rapport entre la valeur du coefficient et son écart-type.

Un autre critère pour apprécier la qualité d’ajustement du modèle est le ratio de vraisemblance. L’hypothèse qui est testée est si tous les coefficients sont nuls. Le test est basé sur la statistique -2(L(0) – L(θ)), qui est distribuée asymptotiquement suivant une loi du χ2. Une valeur plus forte du test indique une amélioration significative de l’information reprise par le modèle.

L’indicateur ρ2 permet de mesurer la qualité d’ajustement du modèle, c'est-à-dire le gain d’information apporté par rapport à un modèle constant. Il est donné par la relation :

ρ2 = 1 - L(θ)/ L(0)

La valeur du ρ2 est comprise entre 0 et 1, et une valeur de ρ2 plus proche de 1 indique un meilleur modèle. (En pratique, une valeur de ρ2 comprise entre 0,3 et 0,4 correspond à un ajustement de bonne qualité.)

Les logiciels fournissent également un autre indicateur, le ρ2 redressé, qui est une correction du ρ2 par le nombre de coefficients estimés, ce redressement permettant de corriger le fait que la vraisemblance augmente automatiquement quand le nombre de variables explicatives dans le modèle croît. (Cette statistique est l’équivalent du R2 des régressions linéaires, et elle est parfois appelée pseudo-R2 de McFadden.)

En dehors des tests statistiques, la validation des résultats du modèle suppose de vérifier la cohérence des signes et des valeurs des coefficients estimés par rapport à ce que stipule la théorie.