§ 2 . Mode de redressement des données

L’ensemble des données dont il est ici question a été collecté lors de sondages stratifiés par secteurs d’activités et par tranches d’effectifs. Chaque strate faisant l’objet d’un taux de sondage194 différent croissant avec la taille des firmes. Pour chaque enquête et chacune des observations qui y figure un coefficient de redressement195 a donc été défini par le SESSI qui permet lors du calcul de moyennes ou de proportions d’obtenir des estimations ’représentatives’ de la population parent étudiée196 197.

Dans le cas présent nous nous penchons sur l’intersection des différentes enquêtes prises deux par deux. Nous devons donc définir de nouveaux coefficients de redressement. Considérant deux enquêtes e1 et e2 et connaissant le coefficient de redressement (rje1) d’une firme j dans l’enquête e1 et son coefficient de redressement (rje2) dans l’enquête e2 il est alors possible, a posteriori, de calculer la probabilité qu’elle avait de figurer simultanément dans ces deux échantillons (P(e1 message URL FORM51.gife2)) qui est égale au produit P(e1)j.P(e2)j=1/rje1.1/rje2 . Nous avons donc appliqué aux données à l’intersection des différentes enquêtes un nouveau coefficient de redressement noté rje1e2 où rje1e2 = rje1.rje2 011Nous le qualifierons par la suite de coefficient de redressement ’inter’.
Tableau 37 : Impact du coefficient de redressements ’inter’ sur la qualité d’estimation de la distribution des comportements innovants lors de l’appariement d’enquêtes
Sans emploi des coefficients de redressement
(données brutes)
Estimation de la distribution à partir de l’ensemble des données de l’enquête Estimation à partir des données appariées Ecart entre la distribution sur données brutes et appariées
CIS1 Compétence CIS1 Compétence CIS1 Compétence
Non-innovant 0,568 0,421 0,394 0,316 0,174 0,105
Produit 0,127 0,149 0,135 0,148 -0,008 0,001
Procédé 0,093 0,095 0,084 0,104 0,010 -0,010
Produit & procédé 0,212 0,336 0,388 0,432 -0,176 -0,096
Nombre d’observations 3843 3881 766 766
Avec emploi des coefficients de redressement
(données redressées)
Estimation de la distribution à partir des données issues des enquêtes redressées à l’aide des coefficients de redressement originaux du SESSI Estimation à partir des données appariées redressées à l’aide du coefficient de redressement ’inter’ Ecart entre la distribution sur données brutes et appariées
CIS1 Compétence CIS1 Compétence CIS1 Compétence
Non-innovant 0,612 0,507 0,590 0,496 0,022 0,011
Produit 0,122 0,147 0,110 0,131 0,012 0,016
Procédé 0,096 0,100 0,106 0,150 -0,010 -0,051
Produit & procédé 0,170 0,246 0,193 0,222 -0,023 0,024
Nombre d’observations 3843 3881 766 766
Source : Appariement à partir des n°SIREN des enquêtes CIS et Compétence du SESSI
Notes
194.

Le taux de sondage dans la strate i (si) se définit comme le rapport entre l’effectif sondé dans la strate i (ni) et la population totale de la strate i (Ni) : si=ni/Ni

195.

Ce coefficient de redressement (ri) correspond à l’inverse du taux de sondage ri=1/si=Ni/ni . Il s’interprète donc comme le nombre d’entreprises de la même strate que représente chaque entreprise sondée.

196.

Dans notre cas la population parent est constituée de l’ensemble des firmes industrielles françaises à l’exception de quelques secteurs comme l’armement, ...

197.

Ce coefficient de redressement permet certes d’obtenir des estimations sans biais mais en fonction du logiciel statistique employé, il doit faire l’objet de réajustements afin d’obtenir des variances estimées qui ne soient pas sous-évaluées (voir note de bas de page n°97).