§ 2 . Mode de redressement des données

L’ensemble des données dont il est ici question a été collecté lors de sondages stratifiés par secteurs d’activités et par tranches d’effectifs. Chaque strate faisant l’objet d’un taux de sondage¹⁹⁴ différent croissant avec la taille des firmes. Pour chaque enquête et chacune des observations qui y figure un coefficient de redressement¹⁹⁵ a donc été défini par le SESSI qui permet lors du calcul de moyennes ou de proportions d’obtenir des estimations ’représentatives’ de la population parent étudiée¹⁹⁶ ¹⁹⁷.

Dans le cas présent nous nous penchons sur l’intersection des différentes enquêtes prises deux par deux. Nous devons donc définir de nouveaux coefficients de redressement. Considérant deux enquêtes e1 et e2 et connaissant le coefficient de redressement (rje1) d’une firme j dans l’enquête e1 et son coefficient de redressement (rje2) dans l’enquête e2 il est alors possible, a posteriori, de calculer la probabilité qu’elle avait de figurer simultanément dans ces deux échantillons (P(e1 message URL FORM51.gif

e2)) qui est égale au produit P(e1)j.P(e2)j=1/rje1.1/rje2 . Nous avons donc appliqué aux données à l’intersection des différentes enquêtes un nouveau coefficient de redressement noté rje1e2 où rje1e2 = rje1.rje2 011Nous le qualifierons par la suite de coefficient de redressement ’inter’.

Tableau 37 : Impact du coefficient de redressements ’inter’ sur la qualité d’estimation de la distribution des comportements innovants lors de l’appariement d’enquêtes
Sans emploi des coefficients de redressement (données brutes)
	Estimation de la distribution à partir de l’ensemble des données de l’enquête		Estimation à partir des données appariées		Ecart entre la distribution sur données brutes et appariées
	CIS1	Compétence	CIS1	Compétence	CIS1	Compétence
Non-innovant	0,568	0,421	0,394	0,316	0,174	0,105
Produit	0,127	0,149	0,135	0,148	-0,008	0,001
Procédé	0,093	0,095	0,084	0,104	0,010	-0,010
Produit & procédé	0,212	0,336	0,388	0,432	-0,176	-0,096
Nombre d’observations	3843	3881	766	766

Avec emploi des coefficients de redressement (données redressées)
	Estimation de la distribution à partir des données issues des enquêtes redressées à l’aide des coefficients de redressement originaux du SESSI		Estimation à partir des données appariées redressées à l’aide du coefficient de redressement ’inter’		Ecart entre la distribution sur données brutes et appariées
	CIS1	Compétence	CIS1	Compétence	CIS1	Compétence
Non-innovant	0,612	0,507	0,590	0,496	0,022	0,011
Produit	0,122	0,147	0,110	0,131	0,012	0,016
Procédé	0,096	0,100	0,106	0,150	-0,010	-0,051
Produit & procédé	0,170	0,246	0,193	0,222	-0,023	0,024
Nombre d’observations	3843	3881	766	766
Source : Appariement à partir des n°SIREN des enquêtes CIS et Compétence du SESSI

Notes

194.

Le taux de sondage dans la strate i (si) se définit comme le rapport entre l’effectif sondé dans la strate i (ni) et la population totale de la strate i (Ni) : si=ni/Ni

195.

Ce coefficient de redressement (ri) correspond à l’inverse du taux de sondage ri=1/si=Ni/ni . Il s’interprète donc comme le nombre d’entreprises de la même strate que représente chaque entreprise sondée.

196.

Dans notre cas la population parent est constituée de l’ensemble des firmes industrielles françaises à l’exception de quelques secteurs comme l’armement, ...

197.

Ce coefficient de redressement permet certes d’obtenir des estimations sans biais mais en fonction du logiciel statistique employé, il doit faire l’objet de réajustements afin d’obtenir des variances estimées qui ne soient pas sous-évaluées (voir note de bas de page n°97).