5.2.4. La contrainte de fréquence lexicale

Dans la littérature spécialisée, quatre études — Fenk-Oczlon (1989), Sobkowiak (1993), Wang (2003) et Benor et Levy (à paraître) — traitent du rôle de la fréquence lexicale dans l’ordonnancement des constituants d’un binôme et elles concluent unanimement que l’élément le plus fréquent tend à occuper la première position 203 . Cette contrainte n’est pas sans lien avec la loi de Panini évoquée plus haut, car, comme le souligne Zipf (1974:29-31), plus un mot est fréquent, plus il a tendance à être court. Bien que les listes de binômes et les sources des mesures de fréquence varient grandement — Fenk-Oczlon utilise Thorndike et Lorge (1944), Sobkowiak se sert de Carroll, Davies et Richman (1971), Wang du BNC et Benor et Levy du Penn Treebank-3 (= PTB3) —, les résultats sont proches : Sobkowiak (op. cit.:398) arrive à une proportion de conformation à la contrainte de 63,6 %, Wang (op. cit.:874) à 65,5 % et Benor et Levy (op. cit.) à 60 % ; le résultat de 84 % donné par Fenk-Oczlon (op. cit.:530) doit, lui, être pris avec précaution, car il est obtenu à partir d’un corpus hétérogène de 400 binômes qui ne sont pas tous anglais (134 sont empruntés à l’allemand et 5 au russe).

La contrainte de plus grande fréquence lexicale est aussi vérifiée pour les amalgames : Kelly (1998:582) indique que les bases-sources correspondant à la pre-mière fracto-base de l’amalgame ont en moyenne une fréquence d’occurrence de 40,1 par million de mots, et celles qui correspondent à la deuxième fracto-base une fréquence de 14,8 millions par million de mots 204 .

Notes
203.

 Wright, Hay et Bent (2005) arrivent à la même conclusion, mais leur travail n’est pas détaillé ici, car elles réduisent leur champ d’investigation aux seuls binômes associant un prénom mas-culin et un prénom féminin (ex. : la suite Michael and Sarah est beaucoup plus fréquente en corpus que Sarah and Michael).

204.

 Une différence de fréquence statistiquement significative est aussi mesurée quand les bases-sources sont équisyllabiques (c’est-à-dire en cas de neutralisation du rôle de la loi de Panini).