Les deux langues retenues pour le corpus sont l'anglais et le français. La principale subdivision du corpus en deux sous-corpus se fait donc selon la langue.
Précisons de plus que, dans la mesure du possible — l'information n'étant pas toujours disponible — nous avons essayé de choisir des textes écrits par des locuteurs natifs comme le conseillent Bowker & Pearson (2002 : 52) et nous avons éliminé des textes potentiellement traduits (a, par exemple, été éliminé un article de Science d'un auteur au nom à consonance italienne et membre d'un laboratoire de recherche italien 358 ), étant donné que les texte traduits ou écrits par des locuteurs non natifs peuvent contenir des expressions non-idiomatiques (Bowker & Pearson 2002 : 52).
Notons cependant que l'identification de la langue maternelle d'un locuteur d'après son nom peut être trompeuse et qu'une traduction peut avoir été revue par un locuteur natif, comme l'expliquent Bowker & Pearson (2002 : 52).