2.1.3.4. Problèmes d’échantillonnage

Lors de la conception d’une enquête se pose toujours le problème de l’échantillonnage (la sélection des éléments de l’ensemble (Dussaix & Grosbras (1993 : 8)) ; on cherche en effet à ce que les résultats obtenus sur l’échantillon se rapprochent de façon suffisante de la réalité moyenne de l’ensemble afin de pouvoir établir des généralisations (Devereaux-Ferguson (2000 : 138)).

Comment organiser la sélection pour que les résultats soient aussi représentatifs que possible ? On distingue en général deux types de méthodes : les méthodes probabilistes ou aléatoires, et les méthodes non-probabilistes ou empiriques 269 .

Dans les méthodes dites aléatoires, les individus de l’échantillon sont choisis par tirage au sort, de telle sorte que tous les membres de la population de référence ont une chance égale d’être inclus dans l’échantillon, et cela « afin de n’introduire aucun biais (surévaluation ou sous-évaluation de telle catégorie de personnes) » (Meynaud & Duclos (1985 : 61)).

Dans les méthodes dites empiriques, parmi lesquelles la « méthode des quotas » est la plus connue, « on cherche à construire a priori une sorte de ‘modèle réduit’ ou de ‘miniature’ de la population étudiée » (Antoine (1990 : 174)) en établissant une liste « de personnes, en nombre suffisant, se répartissant selon les mêmes caractéristiques et les mêmes proportions que l’ensemble de la population à étudier » (Meynaud & Duclos (1985 : 61)). Antoine (ibid.) explique ainsi :

‘On observe par exemple que la population française de plus de 15 ans comprend 75 % d’urbains et 25 % de ruraux, un peu plus de femmes que d’hommes et qu’elle a une répartition socioprofessionnelle connue [grâce au dernier recensement de la population] ; et l’on décide d’inclure dans l’échantillon les mêmes proportions selon l’habitat, le sexe, et la catégorie socio-professionnelle.’

Ces deux types de méthodes, qui visent à la représentativité, sont théoriquement recevables 270 , mais posent un problème essentiel d’application pratique.

En effet, ces deux méthodes reposent sur l’existence de statistiques précises sur la population étudiée : pour la première méthode, il faut disposer de « bases de sondage », c’est-à-dire de fichiers comprenant tous les individus de la population que l’on veut étudier (Meynaud & Duclos (1985 : 61)) 271 pour pouvoir procéder au tirage au sort et, pour la seconde, il faut disposer de statistiques définissant la structure sociodémographique de la population de référence (telles que celles issues de recensements de la population d’un pays donné) pour pouvoir vouloir en imiter les caractéristiques.

Dans notre cas, cela impliquerait de posséder des données sur des catégories professionnelles qui ne sont pas couramment identifiées comme telles (les professionnels de la langue, les scientifiques…), et de posséder ces données pour plusieurs pays alors qu’il est déjà difficile d’obtenir les seules données propres à la France (Meynaud & Duclos (1985 : 61))… cela ne relève pas de la gageure, mais de l’utopie!

Pour cette raison principalement, nous avons renoncé à constituer un échantillon réellement représentatif des utilisateurs adultes potentiels de dictionnaires généraux unilingues et bilingues.

Mais à cela s’ajoutent deux autres raisons, partagées par Descamps & Vaunaize (1983 : 93) qui ont dû eux aussi « renoncer à constituer un échantillon représentatif des Français adultes » :

Comme eux, nous avons par conséquent pris « le parti d’assembler un échantillon à partir d’une population composite dont les membres seraient bien disposés à répondre à l’enquête » (ibid.), et avons eu en quelque sorte recours à une des méthodes empiriques relevées par Devereaux-Ferguson (2000 : 143), celle de « l’échantillonnage de commodité » (“conve­nience sampling”), avec les avantages et les inconvénients qu’elle comporte :

‘convenience sampling involves selecting the sample from readily available people (e.g. on the streets, in supermarket parking lots, or in malls) in public. The benefits of convenience sampling derive from the ease and low cost of using this technique. Because the sampling process is nonrandom, however, the sample will not be representative of the larger population being studied (unless the research question involves these specific groups).’

Nous avons ainsi cherché des personnes de bonne volonté, non pas complètement au hasard, mais au sein des trois grandes catégories préalablement identifiées.

Notes
269.

Nous résumons ici très grossièrement les techniques d’échantillonnage généralement reconnues. Pour plus de détails, voir Antoine (1990 : chap. 14, pp. 171-183), Meynaud & Duclos (1985 : 60-65), Dussaix & Grosbras (1993 : 10-12), Cayrol (2000 : 46-55), Asher (1995 : 57-71), Tremblay (1991 : 159-177) et Jacquart (1988 : 2-53).

270.

Même si elles présentent certains défauts (voir notamment Antoine (1990 : 174-175), Jacquart (1988 : 33-34, 52-55)), et que le débat entre partisans de l’une ou de l’autre méthode fait rage (c’est la « querelle de l’aléatoire et du quota » à laquelle fait allusion Cayrol (2000 : 54)).

271.

Les bases de sondage communément utilisées en France sont les suivantes : fichiers des abonnés EDF, des abonnés du téléphone, fichiers des électeurs, recensement de la population fait par l’INSEE. Pour plus de détails sur les bases de sondages, voir notamment Jacquart (1988 : 21-32), et Tremblay (1991 : 160-161).