1.1. Les structures compositionnelles et leur fréquence « type »

1.1.1. Les composés binaires

Tableau 26 : Structures compositionnelles endogènes et exogènes des composés du corpus français
Structures Fréquence « type » %
1 Composés endogènes : 461 85,37%
1.1 purs 225 41,11%
1.1.1 N + de + N 99 18,33%
1.1.2 N + A 85 15,74%
1.1.3 N + N 24 4,44%
1.1.4 PS + N 5 0,93%
1.1.5 N + à + N 3 0,56%
1.1.6 A + N 2 0,37%
1.1.7 N + PS 2 0,37%
1.1.8 non + N 1 0,19%
1.1.9 V + N 1 0,19%
1.2 hybrides 236 44,26%
1.2.1 N + N 93 17,22%
1.2.2 PS + N 63 11,67%
1.2.3 N + de + N 32 5,93%
1.2.4 N + PS 19 3,52%
1.2.5 N + A 17 3,15%
1.2.6 Flud 10 1,85%
1.2.7 PS + A 3 0,56%
1.2.8 N + de + PS 2 0,37%
2 Composés exogènes 79 14,63%
TOTAL 540 100,00%

Dans le tableau 26, les composés endogènes sont subdivisés en composés endogènes purs et composés endogènes hybrides. Les éléments formant les composés de la première sous-catégorie sont tous d’origine française (FR attaque de ver, groupe de discussion). ¹⁰⁹ Les noms composés de la deuxième sous-catégorie contiennent à la fois un ou des éléments d’origine française et un ou des éléments du xénolexique, ici l’anglais, (FR canal de chat, chiffrement d’email). Ils respectent la syntaxe du français. Ils sont à mi-chemin entre les véritables composés endogènes et les emprunts intégraux.

Les composés du lexique français d’Internet sont massivement endogènes (85,37%). La proportion des termes exogènes est faible (14,63%), surtout au regard de certaines particularités d’Internet : a) Internet est vraisemblablement un des domaines les plus dominés par l’anglais, b) son développement et sa diffusion sont très rapides, et c) il est très médiatisé. Ces faits étant généralement vecteurs d’emprunts, comment expliquer leur présence minime ici ?

Premièrement, la nature même des unités lexicales étudiées explique le faible taux d’emprunts. Notre étude est consacrée à des unités lexicales longues (entre deux et cinq éléments). Or, dans la langue générale ou dans les langues de spécialité, les lexies empruntées sont généralement brèves. EN bug, chat sont monosyllabiques et spyware, adware ou popup sont dissyllabiques.

Autre fait non négligeable, les composés que nous analysons ont été recueillis dans un corpus écrit, et les emprunts sont d’ordinaire plus utilisés dans la communication orale que dans la communication écrite.

Ensuite, dans la présente étude (contrairement à Ahronian 2001), seuls les emprunts morphosémantiques et les sigles (FR adware, pop under, bookmark, accès FTP, ADSL individuel) sont comptabilisés comme emprunts à l’anglais. Les emprunts sémantiques (FR fichier < EN file, FR moteur < EN engine) et les calques (FR renifleur de navigateur < EN browser sniffer, FR agent intelligent > EN clever agent) respectent la syntaxe de la langue française et entrent dans la catégorie des composés endogènes.

Enfin, la nature du corpus peut être à l’origine de la faible proportion d’emprunts. Les revues françaises dans lesquelles les termes ont été recueillis sont des revues grand public traitant de l’actualité d’Internet qui intéresse tous les internautes. Certaines sont destinées à des profanes (Web magazine) et les autres à un public plus expérimenté (Netsurf, Officiel du Net, .Net) comme des webmasters ou des webdesigners. D’après Brolles (2001), ces deux types de magazines présentent les mêmes termes. Le corpus de Brolles (travaux en cours) est constitué de revues grand public et de revues underground traitant de l’actualité du piratage informatique. ¹¹⁰ Ces dernières sont moins accessibles aux profanes et visent un public revendiquant plus l’appartenance à une communauté. Elles regorgent d’emprunts et de sigles (notamment les termes relatifs aux attaques). ¹¹¹ C’est ce qui explique que les chiffres de l’auteur diffèrent des nôtres (64% d’emprunts à l’anglais, 31% de calques et 5% de transpositions). La différence de pourcentages provient de la nature de nos corpus. Le taux d’emprunts est plus élevé dans les publications spécialisées que dans les ouvrages de vulgarisation. Il n’est pas nécessaire de faciliter la compréhension de lecteurs aguerris maîtrisant les mêmes termes spécialisés.

Il convient maintenant de s’attarder sur les composés hybrides. Si les emprunts intégraux sont peu fréquents, les emprunts partiels représentent à eux seuls 44,26% des noms composés du corpus. Pourquoi une telle supériorité numérique des composés hybrides ?

D’une part, la performance et l’influence des moyens de communication actuels font que les néologismes anglais sont rapidement introduits et diffusés en français, favorisant ainsi leur implantation (absence de termes français concurrents). Dans une situation de néologie d’urgence, les spécialistes français d’Internet et les néologistes n’ont peut-être pas toujours le temps matériel pour créer un terme totalement endogène, calqué ou non, (FR accès à distance < EN remote access, clé de chiffrement < EN encryption key) ou ne cherchent pas à le faire (FR bloqueur de popup, filtrage d’email, chasseur de bug).

D’autre part, l’élément emprunté est : a) un sigle (FR ADSL individuel, protocole FTP, langage HTML), b) un terme anglais court implanté en français et donc réutilisé dans la formation de composés désignant de nouveaux concepts (FR chasseur de bugs, session de chat, fichier log, virus de boot), c) un pseudo-confixe (FR cybercriminel, hyperlien, métamoteur). Les termes pseudo-confixés, très fréquents en français, sont des créations hybrides puisque les pseudo-confixes ont d’abord été utilisés en anglais.

Créer de nombreux termes hybrides permet aux internautes de démarquer leur lexique des lexiques spécialisés soutenus. Cela confirme l’hypothèse avancée précédemment (Ch. 2, Sec. 3.2.2.) : il n’y a pas de frontière langue populaire/langue scientifique dans le domaine d’Internet.

Tableau 27 : Structures compositionnelles endogènes des composés du corpus français
Structures Fréquence « type » %
1 N + de + N 131 28,42%
2 N + N 117 25,38%
3 N + A 102 22,13%
4 PS + N 68 14,75%
5 8 Structures mineures ¹¹² 43 9,32%
Total 461 100,00%

Les composés endogènes sont issus de douze procédés inégalement fréquents, dont quatre sont quantitativement plus importants. Les composés les plus représentés sont : ceux comportant deux noms reliés entre eux, N + de + N (type carnet d'adresses, notificateur de mail), ceux constitués de deux substantifs, N + N (type code source, adresse IP, accès Internet), les substantifs plus adjectifs, N + A (type adresse électronique), et les composés formés d’un pseudo-confixe et d’un substantif, PS + N (type cybercafé, télétravail, nétiquette). Ces quatre patrons représentent 90,68% du total des endogènes. Les huit autres structures ont généré les 9,32% restants.

Comme l’illustre le tableau 27, le français a le plus souvent recours aux formations syntagmatiques : N + de + N (28,42%). Ceci n’est pas une spécificité d’Internet puisque, selon Kocourek (1991 : 129-135), cette composition est la plus fréquente dans les langues de spécialité. En informatique, les formations syntagmatiques concernent 47,75% des composés (106 noms sur 222) contre 16% dans la langue générale (Béciri, 1999 : 137). Leur présence est bien plus significative que dans le lexique d’Internet. L’hypothèse la plus plausible pour expliquer la fréquence de cette structure est le calque. Comme nous l’avons constaté, l’anglais crée beaucoup par juxtaposition (50,50% de N + N, 18,09% de A + N). Le calque permet de traduire ces créations anglaises au moyen d’équivalents indigènes (FR outil de recherche < EN search tool, FR, courrier électronique < EN electronic mail). Le calque est un procédé de traduction assez rapide et facile à utiliser. D’après Candel (2000 : 358), 70 % des composés syntagmatiques contiennent la préposition de dans la langue générale.

Le deuxième patron le plus fréquent, N + N (25,38%), est lui aussi habituel dans la langue générale et les langues de spécialité. Les dénominations par juxtaposition nominale sont observées dans la langue générale depuis la période 1880-1914 (Candel, 2000 : 345). Elles ont tendance à se développer et la terminologie d’Internet semble aller dans ce sens. Humbley (2000 : 80) atteste de la progression des N + N dans le lexique français et cite les travaux de Riegel (1989), Noailly (1990) et Picone (1996) qui en font état. En informatique (Béciri, 1999 : 138), les juxtaposés N + N sont dominants parmi les composés binaires (58%), pourcentage bien supérieur au nôtre. Selon Kocourek (1991 : 133), c’est une marque des « langues fonctionnelles contemporaines non esthétiques », comme les langues technoscientifiques.

Encore une fois, il n’est pas étonnant qu’avec 22,13% l’apposition d’un adjectif à un substantif, N + A, soit un patron fréquent. Il s’agit d’une construction courante du français, tout comme N + N (Candel, 2000 : 345). Toutefois, la terminologie d’Internet semble moins apprécier ces formations que d’autres domaines. Par exemple, selon Tetet (2000 : 552), les constructions N + A sont couramment utilisées pour dénommer les disciplines sportives : danse acrobatique, danse gymnique, danse rythmique, danse sportive. Béciri (1999 : 138) comptabilise 28% de N + A dans son corpus spécialisé mais ne parle pas de la langue générale. Kocourek (1991 : 131) ne donne pas d’indication chiffrée. Comme pour l’anglais, les PS + N ont une influence sur les N + A. Les termes construits avec e- (e-courrier, e-tourisme, e-métier) « remplacent » des N + A (courrier électronique, tourisme électronique, métier électronique). Cela peut expliquer leur présence plus faible dans le domaine qui nous intéresse qu’en informatique.

La formation de composés à partir de pseudo-confixes n’est pas propre à la langue anglaise. Au-delà de la langue anglaise, c’est une spécificité de la terminologie d’Internet. En français, les PS + N sont le quatrième patron le plus fréquent avec 14,75% des composés. Les pseudo-confixés représentent au total 20,38% des composés endogènes. Cette construction est moins fréquente en français qu’en anglais en raison de la structure de nos typologies. Des composés qui appartiennent à une classe de PS en anglais sont des emprunts en français (e-mail, webmaster, e-business, freeware, etc.). De même que pour l’anglais, à notre connaissance aucune étude (excepté Mopoho 1997) ne mentionne la fréquence « type » élevée des pseudo-confixes.

Tableau 26 : Structures compositionnelles endogènes et exogènes des composés du corpus français
	Structures	Fréquence « type »	%
1	Composés endogènes :	461	85,37%
1.1	purs	225	41,11%
1.1.1	N + de + N	99	18,33%
1.1.2	N + A	85	15,74%
1.1.3	N + N	24	4,44%
1.1.4	PS + N	5	0,93%
1.1.5	N + à + N	3	0,56%
1.1.6	A + N	2	0,37%
1.1.7	N + PS	2	0,37%
1.1.8	non + N	1	0,19%
1.1.9	V + N	1	0,19%
1.2	hybrides	236	44,26%
1.2.1	N + N	93	17,22%
1.2.2	PS + N	63	11,67%
1.2.3	N + de + N	32	5,93%
1.2.4	N + PS	19	3,52%
1.2.5	N + A	17	3,15%
1.2.6	Flud	10	1,85%
1.2.7	PS + A	3	0,56%
1.2.8	N + de + PS	2	0,37%
2	Composés exogènes	79	14,63%
	TOTAL	540	100,00%

Tableau 27 : Structures compositionnelles endogènes des composés du corpus français
	Structures	Fréquence « type »	%
1	N + de + N	131	28,42%
2	N + N	117	25,38%
3	N + A	102	22,13%
4	PS + N	68	14,75%
5	8 Structures mineures ¹¹²	43	9,32%
	Total	461	100,00%

Notes

109.

C’est l’étymologie immédiate du terme qui nous intéresse et non son étymologie « ultime ». Identifier le créateur et la date de création d’un terme permettent d’établir son étymologie. Humbley (1994) développe une méthode de datation des termes techniques. À ce stade, nous ne prenons pas en compte l’ajout d’un nouveau signifié à un signifiant existant sous une influence étrangère.

110.

L’auteur n’a pas retenu les magazines présentant les techniques et algorithmes de piratage électronique.

111.

De très nombreuses entrées du dictionnaire de la revue Zataz sont des emprunts (www.zataz.com/dictionnaire-informatique/).

112.

N+PS (4,55%), N+à+N (0,65%), N+de+PS (0,43%), A+N (0,43%), PS+A (0,65%), V+N (0,22%), Adv+N (0,22%), Flud (2,17%).