4. L’épreuve des faits

4.1 Données et spécification des modèles économétriques

Les régressions ont été effectuées à partir des données individuelles, issues de l’appariement de l’Enquête REPONSE (1992). Ces données comportent des informations sur le déroulement des dernières négociations ayant eu lieu dans les entreprises au moment de l’enquête (dates de la négociation, dates du conflit si la négociation a débouché sur une grève, nombre de réunions pendant la négociation, réunions préparatoires à la négociation avec des personnes autres que les syndicats, acteur à l’origine de la négociation), mais aussi des informations sur l’entreprise elle-même (taille de l’entreprise et de l’établissement en termes de nombre de salariés et de capital, appartenance de l’entreprise au secteur privé, région et secteur d’appartenance, représentation syndicale, climat au sein de l’entreprise).

Toutefois cette enquête ne comprenait aucune variable sur la diffusion de l’information et sur les connections inter-entreprises. Nous avons créé à partir des données disponibles les variables nécessaires à la réfutation du modèle. Les données exploitables dans l’enquête étaient les dates de la dernière négociation dans l’établissement. Nous avons donc recréé le nombre de négociations qui s’étaient déroulées préalablement en distinguant les négociations (avec ou sans grève) antérieures à celles de l’échantillon, puis en distinguant les négociations passées selon l’appartenance sectorielle et syndicale. Nous avons estimé que toutes les négociations présentes dans l’enquête pouvaient entrer dans l’échantillon puisque l’enquête ne couvrait que trois ans. Ce laps de temps nous a paru suffisamment court pour que l’information alors disponible soit prise en compte par l’établissement. Sur cette base, des durées moyennes de négociation avec ou sans conflit, ainsi que des durées moyenne de conflit ont été calculées. L’enquête est renseignée quant à l’issue de la négociation, mais une variable durée de conflit a dû être reconstituée. Nous nous sommes fondés pour cela sur la question dans laquelle l’employeur a déclaré qu’une grève avait été le conflit le plus marquant des trois années précédant l’enquête, et si tel était le cas l’enquête fournissait des durées de conflit. Ainsi par recoupement de dates nous avons pu reconstituer un sous-échantillon de durée de grèves. Des croisements avec l’appartenance sectorielle et la dominance syndicale au sein de l’entreprise ont été effectués, ce qui nous a permis d’obtenir les variables nécessaires à la réfutation du modèle. Les variables utilisées dans les régressions sont décrites dans l’annexe 3. L’annexe 3 comporte des statistiques descriptives sur les variables utilisées.

Le modèle économétrique testé porte sur la durée de la dernière négociation (option d’attente et grève), la probabilité de conflit lors de la dernière négociation et sur la durée dudit conflit s’il a eu lieu. Nous avons relié ces différentes grandeurs aux caractéristiques de l’entreprise, du syndicalisme dans l’établissement, de la négociation, et aux informations disponibles sur les négociation antérieures. Ce modèle permet ainsi de tester les prédictions de la modélisation de la diffusion de l’information en négociation séquentielle. Il ne permet cependant pas de tester les conclusions en termes de salaire espéré ou de profit espéré, car nous ne disposons d’aucune mesure de cette valeur dans les différentes enquêtes.

L’estimation de la durée de la négociation grâce à un modèle paramétrique de survie constitue une première étape indépendante de notre analyse économétrique. Puis nous avons effectué une estimation de la probabilité de grève lors de la dernière négociation par un modèle Probit. Les résultats de cette équation sont ensuite intégrés dans l’estimation de la durée de conflit. Deux méthodes peuvent alors être utilisées. D’une part, la méthode classique de correction de biais de sélection d’Heckman (1979) par l’intégration de l’inverse du ratio de Mill dans la deuxième étape constituée par un modèle paramétrique de survie. Cette méthode impose cependant à l’estimation du modèle de durée de grève une forme lognormale. En fait, les durées de grèves n’étant pas issues directement d’un même groupe de questions, il y avait directement un risque de biais de sélection. D’autre part, la méthode d’intégration directe dans l’estimation de la durée de grève des probabilités de conflit estimées, ce qui permet de supposer que la densité obéit à une loi de forme Weibull.

Encadré I : Principe général des modèles de durée

  • Les modèles de durée s’appliquent lorsqu’on cherche à évaluer l’impact de caractéristiques individuelles sur la durée d’un épisode dans un état donné (négociation, grève, etc.). Ces modèles permettent de prendre en compte les durées réelles telles qu’elles sont observées dans une enquête, sans négliger le fait que certaines durées ne puissent être que partiellement observées; les modèles de durée permettent en particulier de tenir compte des problèmes de censure.
    Bien que les durées dont nous disposons dans reponse ne soient jamais censurées, il paraît cependant intéressant d’utiliser ce type de modèle. D’une part, il permet d’estimer la probabilité de sortie d’un état conditionnellement à la durée du séjour dans cet état. Cette approche probabiliste paraît plus proche du cadre théorique retenu. D’autre part, les durées observées sont toujours positives ou nulles, les moindres carrés conduiraient alors à une estimation biaisée.
    Le principe général de ce type de modèle est d’évaluer des probabilités de changement d’état (ici : sortir de la négociation). Le but est alors d’estimer l’impact des caractéristiques individuelles sur la durée avant qu’intervienne un changement d’état.
    Soit t le temps qui s’écoule.
    Soit T la durée de l’état étudié, une variable aléatoire à densité continue.
    La distribution de probabilité de la durée peut être spécifiée par la fonction de répartition de T suivante: F(t)=Prob(T<t)
    La densité correspondante est: message URL form131.gif
    Le concept central des modèles de durée est la probabilité conditionnelle de sortie d’un état, appelée fonction de hazard, elle est notée λ(t). Cette fonction est définie comme la probabilité qu’un individu sorte de l’état considéré sur l’intervalle [t,t+h] sachant qu’il est encore dans l’état en t. message URL form132.gif
    La probabilité que la durée de l’état dépasse t est quant à elle appelée la fonction de survie.
    Elle est définie comme suit: S(t)=1-F(t)=Prob(T≥t)
    Les fonctions de survie et de hazard sont liées entre elles. Le hazard correspond au nombre d’individus qui sont sortis de l’état à l’instant t, rapporté au nombre d’individus qui ne sont pas encore sortis. Ainsi, on a message URL form133.gif
    La fonction de hazard fournit une définition de la dépendance du taux de hazard à la durée.
    Une dépendance positive du taux de hazard à la durée signifie que plus un individu reste longtemps dans l’état, plus sa probabilité de sortie est grande et plus sa survie est faible. Il y a dépendance positive si au point t*, message URL form134.gif à t=t*.
    Une dépendance négative du taux de hazard à la durée signifie que plus un individu reste longtemps dans l’état, plus sa probabilité de sortir est faible et sa survie est forte.
    Il y a dépendance négative si au point t*, message URL form135.gif à t=t*.
    Sur cette base, il est facile d’établir que message URL form136.gif et que message URL form137.gif.
    Les modèles de durée sont estimés par maximum de vraisemblance. Un individu i dont on ne connaît que la durée dans l’état étudié participe à la vraisemblance par sa fonction de densité f(t i ). En revanche, un individu pour lequel on ne connaît que l’ancienneté contribue à la vraisemblance par sa survie S(t i ).
    La fonction de vraisemblance d’un individu i s’écrit alors: message URL form138.gif si la durée est censurée, 1 sinon.
    Si on loglinéarise, on obtient:
    LogL i =c i log λ (t i ) - z(t i ) avec message URL form139.gif
    Il existe différentes voies d’estimation possibles: l’estimation non-paramétrique, l’estimation semi-paramétrique et enfin l’estimation paramétrique.

Encadré II : Estimations non-paramétriques des modèles de durée

  • Dans les méthodes non paramétriques d’estimation, aucune hypothèse n’est posée en ce qui concerne la distribution des durées. De même, aucune hypothèse n’est faite quant au rôle joué par les différentes caractéristiques individuelles sur la fonction de hazard. Ces méthodes sont essentiellement exploratoires.
    L’estimation paramétrique la plus courante est celle de Kaplan-Meier. Elle sert de base à toutes les études, mais ne permet qu’une analyse descriptive. Elle est ainsi utile pour se donner une idée de la meilleure spécification à utiliser dans une estimation paramétrique. Elle permet aussi de déterminer si les hazards estimés sont différents d’une sous population à une autre. Mais la forme de la fonction de hazard estimée par Kaplan-Meier ne donne pas la vraie loi suivie par les durées.
    Si p est le nombre de périodes considérées (p=1,...T), np, est la taille de l’échantillon sorti de l’état avant la période tp, et mp le nombre de firmes dont la durée dans l’état est non-complète avant la période tp, on obtient Np la taille de la population soumise au risque au début de la période tp telle que: message URL form140.gif.
    La probabilité de sortie au cours de la période tp, sachant que l’individu n’était pas sorti au début de la période s’écrit: Prob[T t p /T t p ] = λ (t p )
    La probabilité que np sorte au cours de la période tp est égale à: message URL form141.gif
    La vraisemblance de l’échantillon s’écrit donc: message URL form142.gif
    Quand on maximise la log-vraisemblance, on obtient:
    message URL form143.gif
    L’estimateur de la fonction de survie de Kaplan-Meier est: message URL form144.gif; le temps y est divisé en intervalles fixés, un taux de survie étant calculé sur chacun de ces intervalles.

Encadré III : Lois principales utilisées dans les estimations paramétriques des modèles de durée.

  • Distribution exponentielle
    La fonction de hazard est une constante, ce qui signifie qu’il n’y a pas de dépendance à la durée, le taux de hazard restant constant dans le temps. Cette distribution est dite sans mémoire.
    message URL form145.gif
    Distribution de type Weibull
    La loi de Weibull est une fonction de hazard à deux paramètres: message URL form146.gif.
    message URL form147.gif
    La loi Weibull généralise donc l’exponentielle (cas où α=1). La forme de la fonction de hazard est croissante si α>1, décroissante si α<1, et constante si α=1. La dépendance du taux de hazard à la durée n’est pas influencé par le paramètre g, donc par les variables explicatives.
    Les distributions lognormale et log-logistique
    La dépendance du taux de hazard à la durée est influencée par le paramètre ϑ. Ceci implique que les caractéristiques de l’entreprise ont une influence sur la dépendance du taux de hasard. Ces lois permettent de représenter des hazards avec un mode (décroissant puis croissant). La durée est alors telle que message URL form148.gif suit respectivement une loi N(0,1) ou une loi logistique.
    log-logistique
    lognormale
    message URL form149.gifIl est a noter que message URL form150.gif est une fonction décroissante de g.
    message URL form151.gif
    logt étant normalement distribué de moyenne μ=-log g et d’écart type message URL form152.gif
    φ,Φsont la densité et la fonction de répartition de la loi normale.

Le graphique ci-dessous schématise la structure des estimations.

message URL Graphique9.gif
Graphique 6 : Structure du modèle économétrique testé