3.1. Constitution des corpus

Le principe d’incertitude d’Heisenberg (1927) met en avant que l’observation d’un phénomène est susceptible en elle-même de modifier l’observé et pose au chercheur la question de son influence relativement à son objet d'étude 52 . En linguistique, ainsi, Françoise Gadet (1997:18) 53 rappelle que dans "les contacts inégaux entre un locuteur du dialecte standard (ce qu'est le chercheur) et un locuteur du dialecte non standard, il y a toujours le risque que le standard, socialement dominant, vienne désorganiser la production même des énoncés et en tout cas la réflexion sur le système non standard, dans des proportions difficiles à prédire." 54 Nous avons optimisé les conditions d’observation de sorte qu’elles aient une influence minimale sur l’objet. À cet effet, nous avons choisi des canaux dans lesquels il y avait un nombre de participants important et beaucoup de participants "inactifs". Être inactif dans la communication que nous souhaitions observer était une condition majeure et nécessaire. Pour pouvoir être inactif sans être gênant, il fallait aussi ne pas être une exception.

L’inactivité dans les canaux est un phénomène très répandu, on estime que plus de 70% des connectés à un canal ne sont pas actifs dans le canal mais ce n'est pas à dire que beaucoup de personnes observent l'activité d'un canal et peuvent ainsi être tenus pour des lurkers 55 .

‘"Le lurking c'est rester dans un canal sans parler. Quelques canaux interdisent les lurkers et vous éjecteront du canal. Il ne semble pas que tout le monde apprécie vraiment les lurkers. Après tout vous êtes assis là, à écouter leurs conversations sans y participer du tout. Tout bien considéré, vous devriez constater qu'aussi longtemps que vous répondez lorsqu'on vous appelle ou lorsqu'on vous parle directement, vous devriez être OK." 56

D'une part la netiquette 57 recommande aux néophytes de commencer par une période d'observation avant de participer à des discussions sur un canal, et d'autre part, l’accès à un canal public donne l’accès à la création de canaux privés, si bien qu'une grande partie des internautes considérés comme présents sur un canal est occupée à des discussions dans des canaux privés. C’est ainsi que notre présence sur le canal ne s’est manifestée que très discrètement 58 puisque nous n’avons eu aucune interaction avec les internautes des canaux publics et nous sommes contentées de répondre de temps à autre à quelques sollicitations privées ainsi que le requiert la netiquette.

L’enregistrement des sessions est prévu par les logiciels de communication en réseau synchrone. La netiquette précise que les enregistrements de sessions peuvent être une preuve à mettre en avant auprès des propriétaires de canaux lorsque des agissements abusifs ont eu lieu. Nous avons utilisé cette fonctionnalité pour collecter les corpus, donc à d'autres fins que celles prévues.

La collecte de corpus est une activité déontologiquement difficile. Pour obtenir un objet scientifiquement valide, il faut minimiser l'influence de l'observation ou être en mesure de la calculer. L'idéal pour un corpus linguistique est que l'observation ne soit pas connue des locuteurs. Toutefois, enregistrer les conversations de personnes à leur insu est incriminable, quand bien même ces conversations seraient publiques. On peut certes mettre en situation des locuteurs avertis. Cette pratique n'écarte cependant pas la possibilité d'effets de laboratoire et souvent pour les minimiser, on trompe les locuteurs sur l'objet de l'étude au départ. Nous aurions pu mettre en place un canal expérimental indiquant à la connexion que les conversations étaient enregistrées à des fins scientifiques. Mais on ne peut pas espérer qu'un canal vive de lui-même sans une communauté de participants attachée à son existence, nous aurions dû dans ce cas nous impliquer dans une observation participante 59 qui aurait grandement contribué à la forme de l'objet obtenu. Nous avons donc préféré observer l'existant en minimisant notre influence d'observateur ce qui nous a valu un gros travail d'anonymisation des corpus dont nous expliquons la procédure au chapitre 4. Ainsi, en lisant notre étude, on ne saura pas qui a dit quoi à qui ni dans quel canal pour des raisons de préservation de l'anonymat des internautes. On nous reprochera peut-être de prendre de trop grandes précautions puisqu'il s'agit de canaux publics et que les locuteurs sur les canaux publics savent qu'ils sont enregistrés par un robot logiciel en permanence et potentiellement sporadiquement par d'autres personnes, ainsi que nous avons pu le vérifier dans nos corpus.

  • Extrait du Corpus F8 60
‘*PAK: PDY demande a XXX ses logs 61 ... tu verras’ ‘%add: PDY’
  • Extrait du Corpus P7
‘*PBH: tu oublies les log PBB.’ ‘%add: PBB’
  • Extrait du Corpus F4
‘*PAG: tu lis quoi ?’ ‘%add: PCA’ ‘*PCA: un log’ ‘%add: PAG’

Il nous a toutefois semblé, par respect pour les internautes qui ont permis cette étude, tout à fait nécessaire et indispensable de ne pas lésiner sur les moyens et le degré de l'anonymisation à mettre en oeuvre.

Avant d'en venir aux traitements qui y sont liés, nous poursuivons ce chapitre par une présentation quantitative des corpus et une description technique des fichiers bruts obtenus.

Notes
52.

Les effets de l'observation sur le comportement linguistique sont identifiés comme un problème majeur dans la littérature.

53.

Voir sur ce point Douglas-Cowie (1978), Trudgill (1983) ; Milroy (1987).

54.

Il ne s'agit bien évidemment pas ici de dire que nos Corpus Présentent un dialecte selon le terme employé par F. Gadet.

55.

Personnes qui se cachent, qui restent tapies dans un coin.

56.

"Lurking is hanging in a channel and not talking. Some channels prohibit lurkers and will kick you out of the channel. It doesn't seem like anybody really appreciates lurkers. After all you are sitting there listening to their conversations without partaking in it at all. All in all you should find that as long as you respond when you are called or spoken directly to, you should be OK."

http://www.kelseypub.com/irc/terms.shtml

57.

Nous avons indiqué au chapitre 1 qu'il s'agit d'un ensemble de règles de bonne conduite sur les réseaux. Précisons qu'il existe une netiquette pour chaque service et des netiquettes particulières à certains serveurs, canaux…

58.

La seule manifestation de notre présence est l'apparition d'un surnom dans la liste des participants, surnom que nous avons créé en fonction d'observations des caractéristiques des surnoms de sorte que le nôtre n'attire pas l'attention. Nous avons créé un surnom de 4 lettres sans majuscules en nous conformant au système de la langue française. Ce surnom a été crée de sorte qu'il apparaisse en fin de liste mais ne soit probablement jamais le dernier de la liste.

59.

Spradley (1980)

60.

Ces extraits de corpus sont tirés des versions traitées pour l'anonymat des internautes. Nous ne présentons jamais les corpus non-anonymisés. Les suites de lettres en majuscules sont des codes remplaçant les noms propres (surnoms), 'XXX' est le nom d'un robot logiciel. On se reportera au chapitre suivant pour les détails des conventions de transcription. Les lignes débutant par %add: présentent le code de l'allocutaire.

61.

Un log est un fichier d'enregistrement d'une session.