4.3.3. Pertes

L'anonymisation des corpus engendre une perte d'information. En effet, les surnoms sont souvent utilisés pour signifier et n'ont pas une simple fonction de dénomination des individus – qui par le fait que les individus choisissent eux-mêmes leur surnom porte déjà de l'information 105 .

Par exemple un utilisateur nommé X se renommera X-DEJEUNER, X-bouffe, ou Xfume, Xboulot…

Les surnoms permettent donc aux utilisateurs, par le biais de changement de surnom au cours de la connexion, de communiquer des informations à propos de leur activité, de signaler le fait qu'ils sont éloignés de leur écran pour un instant… Dans des cas plus rares, le changement de surnom intervient en relation directe avec la thématique de conversation. Ces cas ont été marqués dans le corpus. Nous donnons un exemple ci-après, dans lequel des utilisateurs simulent une vente aux enchères.

‘Extrait du Corpus P3’ ‘*** XXXXX0 is now known as une ’ ‘*PZZ: une fois’ ‘*PAB: trop tard :P’ ‘*** XXXXX1 has joined #YYYYY’ ‘*PAS: j'ai des verres anti reflet avec verre affine’ ‘*** une is now known as deux ’ ‘*PAB: on peut pas revenir en arrieur’ ‘*PZZ: deux fois’ ‘*PAS: et une monture en titane...’ ‘*PAB: 800 une foix’ ‘(1)’ ‘*** deux is now known as Trois ’ ‘*** XXXXX2 has quit IRC (Quit: ¤)’ ‘*PZZ: Trois fois, adjugé vendu’

Enfin, il arrive que le surnom lui-même fasse le prétexte de la discussion, ce que nous avons aussi marqué dans les corpus.

‘Extrait du Corpus P3’ ‘*PAK: PCC, quel drôle 2 nick’ ‘*PBZ: ces koi se nick chelou ?’ ‘*PBZ: grave ’ ‘(1)’ ‘*PAS: ouhais franchement yen a ont la cheville qui explose’ ‘(2)’ ‘*PAK: Ouai, C comme s'appeller PAS, ça ne se fait pas’

La procédure automatique produit donc pour chaque corpus une table de correspondance entre les surnoms réels et les codes calculés de sorte qu'il n'y ait pas de doublons et que les surnoms correspondant à un utilisateur unique reçoivent le même code. Un code particulier a été attribué pour les lignes d'action de façon à être en mesure de les repérer toujours. Pour chaque corpus, nous avons procédé au remplacement des surnoms réels par les codes calculés. Pour que les fichiers ainsi conçus soient compatibles avec le format Childes 106 , la contrainte était que les codes soient de trois caractères, ce qui autorisait 46 656 codes différents. Toutefois pour des raisons techniques, nous avons dû réserver le premier caractère ce qui n'autorise plus que 1 296 codes ce qui est en dessous du nombre de participants répertorié dans nos corpus 107 . Les codes ne sont donc uniques qu'à l'intérieur d'un corpus donné.

L'anonymisation des corpus a été réalisée, ainsi que nous venons de le spécifier, de façon à ce qu'elle soit compatible avec le format de fichier imposé par le logiciel de traitement de corpus que nous avions sélectionné : Childes. La section suivante propose les raisons de notre choix et esquisse les caractéristiques de ce programme.

Notes
105.

Certains surnoms précisent le sexe du locuteur, son âge, son statut civil, des caractéristiques physiques… D'autres surnoms sont des énoncés, des titres de film, des noms de divinités, de personnages célèbres, de héros…

106.

Format de fichier choisi pour la présente étude

107.

Les corpus utilisés effectivement pour les présentes analyses comptabilisent 1517 participants.