4.3.2. Procédure

Une procédure d'anonymisation consiste à rendre impossible l'identification des individus. Dans le cas de données audio ou audiovisuelles, on gomme les caractéristiques individuelles visuelles, sonores ou linguistiques susceptibles d'activer la reconnaissance d'un individu. Dans le cas de l'écrit dactylographié, on gomme des informations linguistiques. Malheureusement, il ne s'agit pas dans notre cas d'associer simplement un code à un surnom puis de remplacer dans les corpus le surnom par le code. Si à un moment T il ne peut correspondre qu'un utilisateur à un surnom, sur une session un utilisateur peut utiliser plusieurs surnoms. En effet, au cours de la connexion, les utilisateurs ont la possibilité de changer de surnom et ils utilisent cette possibilité fréquemment ainsi que le montre le tableau suivant (4-1). En moyenne, il intervient près d'un changement de nom par minute sur l'ensemble du corpus.

Tableau (4-1) – Changements de surnoms, propriétés générales
Corpus	Nb. c.d.n.	c.d.n./min
F1	92	2,09
F2	81	1,88
F3	269	2,17
F4	163	0,71
F5	213	1,52
F6	231	1,53
F7	308	0,75
F8	129	0,83
P1	39	0,81
P2	38	0,83
P3	106	0,86
P4	51	0,22
P5	39	0,26
P6	141	0,34
P7	96	0,26
P8	49	0,52
P9	64	0,41

Nous avons établi une procédure automatique prenant en compte ce phénomène et associant un code à chaque série de surnoms associée à un participant actif. Il ne nous était en effet pas nécessaire de coder les surnoms des utilisateurs inactifs. À titre d'appréciation quantitative, nous donnons le tableau résumé des changements de noms survenus dans chaque corpus, ce qui permet de se rendre compte de leur importance. Cette procédure permet en même temps d'évaluer le nombre de participants actifs différents pour chaque session.

Tableau (4-2) – Changements de surnoms, propriétés détaillées
Corpus	Nb. de participants actifs	Nb. de c.d.n. des participants actifs	Nb. de participants ayant changé de surnom	Nb. de c.d.n. maximum par participant actif
F1	65	15	9	4
F2	62	12	10	2
F3	136	43	26	5
F4	120	27	21	2
F5	116	30	19	7
F6	139	56	35	6
F7	302	71	44	7
F8	123	27	20	4
P1	30	5	3	3
P2	27	7	5	2
P3	62	33	16	5
P4	37	16	9	4
P5	36	12	7	3
P6	103	47	20	9
P7	68	24	14	5
P8	44	11	7	4
P9	50	27	13	8

Nous donnons l'algorithme pour cette procédure en annexe. Il faut toutefois signaler un phénomène que nous ne prenons pas en compte dans ce traitement automatique pour la raison qu'il n'a pas de trace récupérable dans les logs et qu'il semble très peu fréquent : il s'agit du phénomène de clonage c'est-à-dire lorsqu'un même utilisateur se connecte sous des surnoms différents simultanément. Cette pratique est réprouvée par la netiquette et souvent détectée par les opérateurs des canaux qui excluent alors ces utilisateurs indisciplinés.

Extrait du Corpus P8

*PAW: PBI les pubbeurs miteux que j'ai dégagé c tes copains

%add: PBI

(1)

*PBI: Il faut bien que j'en ai, non ?

%add: PAW

*PAG: ptdr clonage powa

%add: PBI, PAW,

(1)

*PAG: ses poto ses ses clone!

%add: PAW

Au terme de ce traitement, tous les surnoms des participants apparaissent donc dans le corpus sous la forme d'un code de 3 caractères.

Notes

104.

c.d.n. : changements de surnoms