3.4.d Indicateurs de la qualité globale du modèle

Nous utilisons principalement deux indicateurs similaires au coefficient de détermination (R²) du modèle de régression linéaire classique. Le premier est le R² de Cox et Snell (1989, p.208-209) dont l’expression est la suivante :

A l’instar du coefficient de détermination pour la régression linéaire, ces indicateurs donnent une idée du pouvoir explicatif du modèle. Nous effectuons en outre le test de Hosmer et Hemeshow (Hosmer et Hemeshow, 1989) pour tester si le modèle s’ajuste bien aux données (ce test est semblable à un test du khi-deux d’ajustement). L’idée consiste à regrouper les individus statistiques de notre échantillon en plusieurs classes de même effectif. Pour chaque classe, la démarche consiste à comparer l’effectif observé (selon les deux modalités de la variable à expliquer) avec l’effectif théorique tel que le postule le modèle. Habituellement, SAS©scinde la base de données en 10 classes distinctes par ordre croissant de la probabilité que l’événement se réalise. Si l’on note ok l’effectif observé dans chaque classe, ck l’effectif théorique prévu par le modèle et nk le nombre d’individus de la classe k, alors la statistique associée au test s’écrit :

Cette statistique suit une loi du khi-deux à huit degrés de liberté. Si la valeur numérique est trop grande, par exemple supérieure à celle qui correspond au seuil de 0,05, alors on rejette l’hypothèse selon laquelle le modèle s’ajuste bien aux données. Le test de Hosmer et Lemeshow est relativement peu puissant pour les échantillons à faible effectif, ce qui n’est pas notre cas puisque nous travaillons sur une grande base de données. D’autres tests statistiques existent, notamment le test du khi-deux de Pearson ainsi que la déviance du modèle mais ils ne peuvent être utilisés dans notre cas car nos données sont éparses, c’est-à-dire qu’elles possèdent plusieurs variables quantitatives. Ces tests servent à diagnostiquer la sur-dispersion du modèle, à savoir le fait que la variance des erreurs du modèle n’est pas constante. Les conséquences de la sur-dispersion est de rendre certains facteurs plus significatifs qu’ils ne le sont réellement (sous estimation de leur variance). Cependant, les seuils d’entrée et de sortie que nous avons fixés dans la procédure de sélection pas-à-pas sont suffisamment restrictifs pour que l’on puisse considérer les variables sélectionnées comme significatives.