ANNEXE XVI : Rappels sur la régression logistique multinomiale (ou polytomique)

1. La méthode

L’un des outils économétriques les plus employés pour étudier les variables endogènes qualitatives non ordinales multinomiales à partir de données individuelles est la régression logistique multinomiale aussi qualifiée de polytomique. De nombreux manuels traitent du sujet de façon très complète (Maddala [1983], Gourrieroux [1988], Agresti [1990], Menard [1995], Green [1997]). Cette technique permet de prédire en fonction d’un certain nombre de variables indépendantes caractéristiques de chaque individu la probabilité d’occurrence d’une modalité particulière de la variable endogène considérée.

Cet objectif peut être noté comme suit :

message URL FORM45.gif

Avec :

  • y une variable endogène qualitative

  • k représente une modalité particulière de la variable y. k∈ {1, .., r} r étant le nombre total de modalités de la variable y.

  • xij est la valeur d’une variable explicative particulière xj observée pour la firme i. j∈ {0, .., p}. p est le nombre total de variables explicatives.

  • les βjk sont les coefficients à estimer (un par modalité de y (soit r) et un par variable exogène xj (soit p)). Au total r.p coefficients seraient à estimer.

Dans notre cas nous cherchons à modéliser la probabilité pour que le comportement innovant y d’une firme donnée i soit de type k (Pr(yi=k)) en fonction de différentes variables explicatives observées au niveau micro-économique (xij).

Le problème est qu’en l’état le modèle n’est pas identifiable car la probabilité pour que y prenne la modalité r peut être déduite des r-1 autres modalités. Il existe en effet différentes valeurs des βjk aboutissant à des probabilités données de y=1, ...y=k, ...,y=r. La solution consiste à fixer arbitrairement certains βjk à 0 (par exemple les βj r). La modalité r de la variable y sera dite modalité de ’base’ ou de ’référence’.

Les probabilités d’innovation dans chacun des types considérés s’expriment alors de la manière suivante :

  • pour k∉r (c’est à dire pour les modalités non références) :

message URL FORM46.gif
  • pour k=r (c’est à dire pour la modalité de base) :

message URL FORM47.gif

Dans cette perspective les βjkj1, ... βjr-1) s’expriment relativement aux βjr. On ne mesure donc pas directement des changements de probabilité mais un changement de probabilité relative entre Pr(y=k) et Pr(y=r) qui est induit par les variations des variables exogènes xj.

Les βjk s’exprimeront donc de la manière suivante :

message URL FORM48.gif

Ainsi formulé le modèle aboutit à l’estimation de p.(r-1) coefficients β dont l’interprétation ne se fait pas en termes de probabilité simple mais de probabilité relative à un niveau donné de la variable endogène. L’estimation des coefficients est habituellement réalisée à l’aide de la méthode du maximum de vraisemblance.