4.4. Logiciel de traitement des corpus

La forte croissance des industries de la langue a engendré de nombreux programmes de traitement automatique des langues naturelles. Ces derniers ont de nombreuses applications 108  : reconnaissance et synthèse vocale, constitution de thésaurus et extraction de terminologie, interrogation de bases de données multilingues, traduction automatique, synthèse automatique, dialogue homme machine, identification des langues… Ces applications nécessitent des analyses à tous les niveaux : acoustique, phonétique, phonologique, morphologique, syntaxique, sémantique et pragmatique. Tous ces outils, certes imparfaits, auquel le linguiste contribue, sont en grande partie inutilisables pour lui, et ce, parce que les objectifs de ces applications sont grandement différents des objectifs du linguiste. À ce jour, quantité de procédures, même les plus élémentaires du traitement de corpus, ne sont pas disponibles pour le linguiste qui ne travaille pas sur l'anglais. Nous avons pour notre part développé un certain nombre de procédures permettant le traitement de quelques caractéristiques de nos corpus ainsi que nous l'avons mentionné par exemple pour l'anonymisation, ou pour le repérage des différents types de lignes. La mise au point de ces procédures nécessite un investissement temporel important qui se justifie par la réutilisabilité des produits, nous les mettons donc à la disposition de la communauté.

À la lumière de la présentation de nos données au chapitre précédent, on se persuadera que le corpus dont nous disposons n'a la forme d'aucun corpus habituel.

Des logiciels non dédiés à l'analyse linguistique de corpus, tels que les logiciels de traitement de texte, ou plus simplement des éditeurs de texte permettent d'effectuer un grand nombre d'opérations sur des corpus écrits ou transcrits (recherches d'items, comptages…). La possibilité de créer des "sous-programmes" augmente considérablement leurs potentialités. Il est tout à fait possible de constituer son propre système de codage et de développer des macros pour le traiter.

L'utilisation de corpus volumineux nécessite le recours à des procédures de traitement automatique, qui, si elles ne sont pas toujours complètement fiables ont au moins l'intérêt d'appliquer des principes de manière uniforme sur un grand ensemble de données, et il suffit alors pour pallier les faiblesses des traitements automatiques d'appliquer des techniques de vérification ou d'utiliser des procédures de traitement automatique contrôlées.

Afin d'être en mesure de donner accès à ce corpus à d'autres chercheurs nous avons opté, afin de mener les traitements analytiques, pour la solution d'un logiciel de traitement dont la philosophie de distribution des données correspondait à la nôtre, et dont l'utilisation soit assez répandue. Il s'agit du logiciel Childes, conçu à l'origine pour l'uniformisation et la mise en commun des corpus destinés à l'étude de l'acquisition du langage chez l'enfant. Les chercheurs en acquisition du langage à l'institut de psycholinguistique Max Planck de Nijmegen en 1981 se sont concertés pour la création d'un système d'archivage des transcriptions qui a abouti grâce à un financement de la fondation MacArthur, au développement au sein de l'université Carnegie Mellon d'un système d'échange de données en acquisition du langage chez l'enfant – Child Language Data Exchange System – piloté par Brian MacWhinney et Catherine Snow.

Le système Childes 109 a trois composants principaux : un système de transcription et de codage (CHAT), un ensemble de programmes d'analyse automatique (CLAN) et la base de données des transcriptions mises à la disposition de la communauté par les chercheurs qui utilisent le système Childes. En effet, s'il est libre de droit, ce système fonctionne sur le principe de l'échange. Utiliser le système revient à accepter de partager ses transcriptions avec la communauté à l'issue des analyses.

Plusieurs arguments s'opposaient à l'utilisation de ce système pour le traitement de nos données. Tout d'abord, le fait que les buts premiers de ce système sont l'étude et le partage de données en acquisition. Cet argument est réfuté parce que l'étude de l'acquisition du langage chez l'enfant doit être étalonnée par des échantillons de données sur le langage tout au long de la vie d'une part, et d'autre part les corpus en acquisition sont souvent des interactions entre adulte et enfant. Rien ne s'oppose donc à son utilisation sur des corpus de locuteurs adultes. D'autre part, le système est prévu avant tout pour l'étude de corpus oraux et nos corpus sont de type écrit cependant les chercheurs en acquisition l'utilisent également pour l'étude de l'acquisition du système de l'écrit. Nous mettons en avant aussi la volonté exprimée d'extension de ce système à d'autres types d'analyses que les études en acquisition du langage chez l'enfant. Trois chapitres de la documentation du logiciel se rapportent à ce sujet et concernent notamment la transcription pour l'analyse conversationnelle – développée sur le modèle d'un système conçu par Sacks, Schlegloff et Jefferson (1974) –, la transcription des interactions en langues signées, et le langage écrit. De plus le logiciel convient pour l'analyse dans différentes langues. Il est remarquable, encore, que le système soit assez souple pour permettre des adaptations diverses.

Pour être en mesure d'analyser nos corpus, nous avons choisi de nous en remettre à l'utilisation d'un logiciel disponible et utilisé dans la communauté internationale plutôt que de développer des solutions logicielles ad hoc, qui empêcheraient le partage des données. Nous avons de plus veillé à conserver une copie des corpus bruts et vérifié que les traitements effectués sur le corpus pour la mise en conformité avec le format Childes soient réversibles automatiquement.

Le format Childes est peu contraignant et permet de développer des systèmes de codages propres. Chaque fois que cela était possible, nous avons opté pour la solution proposée par le système Childes et dans le cas contraire, nous avons implémenté nos propres systèmes de codage. Ainsi, les frimousses et la ponctuation existante par exemple ont reçu un traitement particulier puisqu'ils n'étaient pas prévus par le logiciel.

Un fichier Childes comporte deux parties : un bloc d'informations sur le contenu du fichier et le corpus proprement dit. Chaque session pour chaque canal fait pour nous l'objet d'un fichier Childes. Le bloc d'informations d'en-tête de ces fichiers contient les informations permettant de définir le corpus (session, canal, nom des participants) ainsi que des informations méta analytiques (nom de l'opérateur, date de traitement du fichier…).

La partie réservée au corpus proprement dit fait l'objet d'une structuration particulière. Ce qui a été effectivement produit par un locuteur est inscrit sur une ligne à laquelle est associée un identifiant pour le locuteur (série de trois lettres majuscules précédée d'un astérisque).

‘Exemple :’ ‘*PCK: salut .’

Sur cette ligne, appelée ligne principale, peuvent être associés directement aux unités des codes spécifiques. Une ligne principale se termine par un marqueur de fin d'énoncé : un point. Selon le manuel Childes, "chaque ligne principale doit coder un et un seul énoncé" 110 .

‘Exemple 111  :’ ‘*MOT: could you please spell your name?’ ‘*MAR: it's m@l a@l r@l k@l.’

Pour nous, une ligne principale comporte une intervention qui porte des marques séparant les clauses. Cette attitude a été adoptée de façon à permettre la correspondance parfaite entre nos corpus brut et les corpus codés dans un souci de lisibilité, elle permet aussi de conserver les caractéristiques de la production sur les IRC, qui sont essentielles à son analyse.

À la ligne principale sont associées des lignes dépendantes qui présentent des codages pour la ligne principale à laquelle ils sont associés.

Ces lignes permettent par exemple de spécifier l'identifiant de l'allocutaire, la langue utilisée, les actes de langage, la morphologie, la syntaxe…

‘Exemple :’ ‘*MOT: are you okay?’ ‘%spa: $x:dhs $i:yq 112

Dans cet exemple, sont codés les actes de langage du point de vue du type d'échange ($x:dhs discussing hearer's sentiments) et des forces illocutoires ($i:yq ask a yes/no question).

Pour cette étude, nous avons associé à chaque ligne principale au moins six lignes de codages qui valent pour la langue (%lan), l'allocutaire (%add), la lemmatisation (%mor), le type d'intervention (%typ), l'unité conversationnelle à laquelle l'intervention se rapporte (%suj), les indications de situation (%exp), les constructions syntaxiques (%syn).

‘Exemple :’ ‘*PCK: salut .’ ‘%mor: co|salut .’ ‘%syn: A’ ‘%lan: FR’ ‘%typ: O’ ‘%suj: INT’ ‘%add: PCB’

Les principes de codages seront présentés au cours des chapitres concernés, afin d'associer explicitement ces derniers aux questionnements qui les ont suscités.

Notes
108.

Pour une présentation détaillée, se reporter à FUCHS et al. (1993) et CARRÉ et al. (1991)

109.

Les documentations du système Childes sont disponibles entre autres sur le site de l'université Carnegie Mellon à l'adresse suivante : http://childes.psy.cmu.edu/

110.

MacWhinney (1995:8) "Each main line should code one and only one utterance."

111.

Issu de la documentation du logiciel http://childes.psy.cmu.edu/clan/ chat.pdf p.41

112.

Issu de la documentation du logiciel http://childes.psy.cmu.edu/clan/ chat.pdf p.152