Présentation de CLAPI

La plateforme CLAPI – Corpus de Langue Parlée en Interaction – a été développée en 2002 par le groupe ICOR (Interaction CORpus) et elle héberge un ensemble de corpus d’interactions enregistrés en situation réelle, dans des contextes variés23. Ces corpus ont été collectés depuis plus de vingt ans à partir de programmes de recherche individuels (mémoires, thèses) ou collectifs (projets d'équipe, réponse à des appels d'offres). Ils proviennent de membres du laboratoire, mais aussi d’autres équipes de recherche. Jusqu'à récemment, ces corpus étaient dispersés, sous la responsabilité de leur auteur, et ne bénéficiaient pas de la diffusion et de l’enrichissement qu’offre la plateforme CLAPI aujourd’hui.

Image 9 : Page d’accueil de la plateforme CLAPI
Image 9 : Page d’accueil de la plateforme CLAPI

La plateforme CLAPI s'appuie sur une médiathèque qui contient les données hébergées dans la banque de données mais également d'autres éléments documentant les corpus24 (documents papiers, etc.). Pour CLAPI, un corpus est composé de :

  • Données primaires : les enregistrements (i.e. enregistrements originaux ; versions compressées ; données brutes, anonymisées et/ou montées ; documents produits ou utilisés par les participants, originaux et/ou numérisés).
  • Données secondaires : les transcriptions et conventions de transcription (i.e. versions originales informatiques ou papier et/ou numérisées ; versions anonymisées, toilettées et/ou adaptées CLAPI ; les conventions de transcriptions révisées) ; et les notes de terrain du collecteur.
  • Autres : les autorisations (i.e. formulaires signés de demande d'autorisation pour la collecte et la diffusion) ; et les publications (la médiathèque conserve certaines publications éditées en nombre limité – par exemple les rapports, les mémoires – portant sur certains corpus CLAPI, originaux ou en version informatique).

Du point de vue quantitatif, la base CLAPI repose sur une médiathèque contenant environ 600 heures d’enregistrements audio et en partie vidéo, dont 350h numérisées (2,5 millions de mots). La base contient des corpus numérisés associés à leurs transcriptions pour un total de 135 heures d’enregistrements soit 327 enregistrements et 514 transcriptions, 45 corpus, dont : i) 58h d’enregistrements alignées avec une transcription au format XML, soit 120 transcriptions, environ 455 000 mots balisés ; ii) 35h librement interrogeables par les outils de requête, environ 323 000 mots ; iii) 16h téléchargeables librement.

La plateforme CLAPI comprend également une plateforme logicielle composée d’un ensemble d'outils d'analyse automatique comme par exemple l’analyse des fréquences d’un token25, de co-occurrences d’un token, de répétitions d’un token. Elle met à disposition également un outil de requêtes complexes pour mettre en évidence les corrélations entre des tokens et des phénomènes interactionnels. Enfin, elle propose un concordancier aligné avec le signal par streaming audio/vidéo.

Notes
23.

Voir Groupe ICOR (2008, 2009, à paraître).

24.

Toutes les données informatiques de la médiathèque sont sauvegardées sur disque dur.

25.

La distinction "type/token" ou "type/occurrence" est due au philosophe américain Charles Sanders Peirce. Un type est une notion générale, alors qu’un token est une occurrence particulière du type. Dans la plateforme CLAPI, un token est un mot dans une transcription, délimité par un espace. Parler de « token » plutôt que de « mot » permet de distinguer le nombre total de mots apparaissant dans une transcription (les tokens) du nombre de mots différents (les types). L'utilisation de l'orthographe adaptée dans les transcriptions d'interactions peut rendre difficile la reconnaissance de deux tokens comme relevant du même mot (type), par exemple les formes élidées « i` » pour « ils » ou « `fin » pour « enfin », et a nécessité le développement d'un outil, permettant de reconnaître un type au-delà des variations de notation.