4.3.2. Procédure

Une procédure d'anonymisation consiste à rendre impossible l'identification des individus. Dans le cas de données audio ou audiovisuelles, on gomme les caractéristiques individuelles visuelles, sonores ou linguistiques susceptibles d'activer la reconnaissance d'un individu. Dans le cas de l'écrit dactylographié, on gomme des informations linguistiques. Malheureusement, il ne s'agit pas dans notre cas d'associer simplement un code à un surnom puis de remplacer dans les corpus le surnom par le code. Si à un moment T il ne peut correspondre qu'un utilisateur à un surnom, sur une session un utilisateur peut utiliser plusieurs surnoms. En effet, au cours de la connexion, les utilisateurs ont la possibilité de changer de surnom et ils utilisent cette possibilité fréquemment ainsi que le montre le tableau suivant (4-1). En moyenne, il intervient près d'un changement de nom par minute sur l'ensemble du corpus.

Tableau (4-1) – Changements de surnoms, propriétés générales
Corpus Nb. c.d.n. c.d.n./min
F1 92 2,09
F2 81 1,88
F3 269 2,17
F4 163 0,71
F5 213 1,52
F6 231 1,53
F7 308 0,75
F8 129 0,83
P1 39 0,81
P2 38 0,83
P3 106 0,86
P4 51 0,22
P5 39 0,26
P6 141 0,34
P7 96 0,26
P8 49 0,52
P9 64 0,41

Nous avons établi une procédure automatique prenant en compte ce phénomène et associant un code à chaque série de surnoms associée à un participant actif. Il ne nous était en effet pas nécessaire de coder les surnoms des utilisateurs inactifs. À titre d'appréciation quantitative, nous donnons le tableau résumé des changements de noms survenus dans chaque corpus, ce qui permet de se rendre compte de leur importance. Cette procédure permet en même temps d'évaluer le nombre de participants actifs différents pour chaque session.

Tableau (4-2) – Changements de surnoms, propriétés détaillées
Corpus Nb. de participants actifs Nb. de c.d.n. des participants actifs Nb. de participants ayant changé de surnom Nb. de c.d.n. maximum par participant actif
F1 65 15 9 4
F2 62 12 10 2
F3 136 43 26 5
F4 120 27 21 2
F5 116 30 19 7
F6 139 56 35 6
F7 302 71 44 7
F8 123 27 20 4
P1 30 5 3 3
P2 27 7 5 2
P3 62 33 16 5
P4 37 16 9 4
P5 36 12 7 3
P6 103 47 20 9
P7 68 24 14 5
P8 44 11 7 4
P9 50 27 13 8

Nous donnons l'algorithme pour cette procédure en annexe. Il faut toutefois signaler un phénomène que nous ne prenons pas en compte dans ce traitement automatique pour la raison qu'il n'a pas de trace récupérable dans les logs et qu'il semble très peu fréquent : il s'agit du phénomène de clonage c'est-à-dire lorsqu'un même utilisateur se connecte sous des surnoms différents simultanément. Cette pratique est réprouvée par la netiquette et souvent détectée par les opérateurs des canaux qui excluent alors ces utilisateurs indisciplinés.

Extrait du Corpus P8

*PAW: PBI les pubbeurs miteux que j'ai dégagé c tes copains

%add: PBI

(1)

*PBI: Il faut bien que j'en ai, non ?

%add: PAW

*PAG: ptdr clonage powa

%add: PBI, PAW,

(1)

*PAG: ses poto ses ses clone!

%add: PAW

Au terme de ce traitement, tous les surnoms des participants apparaissent donc dans le corpus sous la forme d'un code de 3 caractères.

Notes
104.

c.d.n. : changements de surnoms