Une procédure d'anonymisation consiste à rendre impossible l'identification des individus. Dans le cas de données audio ou audiovisuelles, on gomme les caractéristiques individuelles visuelles, sonores ou linguistiques susceptibles d'activer la reconnaissance d'un individu. Dans le cas de l'écrit dactylographié, on gomme des informations linguistiques. Malheureusement, il ne s'agit pas dans notre cas d'associer simplement un code à un surnom puis de remplacer dans les corpus le surnom par le code. Si à un moment T il ne peut correspondre qu'un utilisateur à un surnom, sur une session un utilisateur peut utiliser plusieurs surnoms. En effet, au cours de la connexion, les utilisateurs ont la possibilité de changer de surnom et ils utilisent cette possibilité fréquemment ainsi que le montre le tableau suivant (4-1). En moyenne, il intervient près d'un changement de nom par minute sur l'ensemble du corpus.
Corpus | Nb. c.d.n. | c.d.n./min |
F1 | 92 | 2,09 |
F2 | 81 | 1,88 |
F3 | 269 | 2,17 |
F4 | 163 | 0,71 |
F5 | 213 | 1,52 |
F6 | 231 | 1,53 |
F7 | 308 | 0,75 |
F8 | 129 | 0,83 |
P1 | 39 | 0,81 |
P2 | 38 | 0,83 |
P3 | 106 | 0,86 |
P4 | 51 | 0,22 |
P5 | 39 | 0,26 |
P6 | 141 | 0,34 |
P7 | 96 | 0,26 |
P8 | 49 | 0,52 |
P9 | 64 | 0,41 |
Nous avons établi une procédure automatique prenant en compte ce phénomène et associant un code à chaque série de surnoms associée à un participant actif. Il ne nous était en effet pas nécessaire de coder les surnoms des utilisateurs inactifs. À titre d'appréciation quantitative, nous donnons le tableau résumé des changements de noms survenus dans chaque corpus, ce qui permet de se rendre compte de leur importance. Cette procédure permet en même temps d'évaluer le nombre de participants actifs différents pour chaque session.
Corpus | Nb. de participants actifs | Nb. de c.d.n. des participants actifs | Nb. de participants ayant changé de surnom | Nb. de c.d.n. maximum par participant actif |
F1 | 65 | 15 | 9 | 4 |
F2 | 62 | 12 | 10 | 2 |
F3 | 136 | 43 | 26 | 5 |
F4 | 120 | 27 | 21 | 2 |
F5 | 116 | 30 | 19 | 7 |
F6 | 139 | 56 | 35 | 6 |
F7 | 302 | 71 | 44 | 7 |
F8 | 123 | 27 | 20 | 4 |
P1 | 30 | 5 | 3 | 3 |
P2 | 27 | 7 | 5 | 2 |
P3 | 62 | 33 | 16 | 5 |
P4 | 37 | 16 | 9 | 4 |
P5 | 36 | 12 | 7 | 3 |
P6 | 103 | 47 | 20 | 9 |
P7 | 68 | 24 | 14 | 5 |
P8 | 44 | 11 | 7 | 4 |
P9 | 50 | 27 | 13 | 8 |
Nous donnons l'algorithme pour cette procédure en annexe. Il faut toutefois signaler un phénomène que nous ne prenons pas en compte dans ce traitement automatique pour la raison qu'il n'a pas de trace récupérable dans les logs et qu'il semble très peu fréquent : il s'agit du phénomène de clonage c'est-à-dire lorsqu'un même utilisateur se connecte sous des surnoms différents simultanément. Cette pratique est réprouvée par la netiquette et souvent détectée par les opérateurs des canaux qui excluent alors ces utilisateurs indisciplinés.
Extrait du Corpus P8
*PAW: PBI les pubbeurs miteux que j'ai dégagé c tes copains
%add: PBI
(1)
*PBI: Il faut bien que j'en ai, non ?
%add: PAW
*PAG: ptdr clonage powa
%add: PBI, PAW,
(1)
*PAG: ses poto ses ses clone!
%add: PAW
Au terme de ce traitement, tous les surnoms des participants apparaissent donc dans le corpus sous la forme d'un code de 3 caractères.
c.d.n. : changements de surnoms