2.3.2. Problèmes d’appariement

Nous tenons à mentionner ici deux problèmes propres à la constitution de notre corpus comparable.

Premièrement, nous n’avons pas réussi à trouver d’équivalent pour certains types de documents. Ainsi, nous n’avons pas trouvé de texte d’exposition en anglais portant sur les volcans. Nous avons donc décidé d’apparier le texte de l’exposition en français avec un document du Web de niveau de spécialisation quasi-similaire (How Volcanoes Work). De même, la difficulté à trouver des ouvrages anglais de vulgarisation sous forme numérique nous a fait apparier le texte d’un ouvrage pédagogique anglais déjà sous forme numérique (A Teacher’s Guide) avec les ouvrages de vulgarisation français, car le niveau de spéciali­sation était quasi-identique (moins élevé à nos yeux que le niveau d’un manuel universitaire).

Deuxièmement, nous avons tenu à apparier les diverses sous-divisions par nombre de mots, et non par nombre de documents, ce qui explique le déséquilibre apparent entre le français et l’anglais au niveau du nombre de documents. Ainsi les difficultés éprouvées pour récupérer des articles de quotidiens anglophones expliquent la diversité des titres retenus. Inversement, pour les lexiques, à un seul lexique anglais correspondent quatre lexiques français de plus petite taille. Cette disproportion peut causer d’éventuels problèmes de fréquence des termes dont nous devrons tenir compte lors de notre analyse.