Thèse
Université Lumière LYON II
Ecole Doctorale de Sciences Cognitives
Traitement de la Prosodie par un Réseau Récurrent Temporel :
Un Cadre Unifié pour l’Identification Automatique
des Langues, des Attitudes Prosodiques, et des Catégories Lexicales.
Sciences Cognitives – Mention Informatique
Directeur de Thèse
Dr. Peter Ford DOMINEY
Membres du Jury
Pr. Harriet JISA
Dr. Axel CLEEREMANS
Dr. Yves BURNOD
Dr. François PELLEGRINO
Dr. Peter Ford DOMINEY
Rapporteurs
Dr. Axel CLEEREMANS
Dr. Daniel HIRST
Institut des Sciences Cognitives
2 Février 2005

A
Louis
Martine
Nathalie
Loïc

Remerciements

Si vous lisez les quelques pages qui suivent, vous aurez probablement le sentiment qu’une thèse est le travail d’une personne isolée, il n’en est rien et il revient à ces lignes de rétablir la vérité.

Mon grand-père et ma mère sont sans doute les premiers à l’origine de cette aventure et ils y contribuent encore. Mais la suite aurait été tout autre si je n’avais rencontré Peter, qui m’a guidé et a toujours été confiant dans mes idées. Je tiens à les remercier lui et sa femme tout particulièrement parce qu’ils ne m’ont jamais imposé de limites inatteignables ou intransgressibles.

C’est lui encore qui m’a permis de rencontrer la plupart des personnes qui ont contribué à ce mémoire : tout d’abord, durant mon D.E.A Gérard BAILLY m’a initié à la prosodie et a toujours fourni des commentaires utiles lors de ma thèse, Jean-Luc SCHWARTZ a été rapporteur de mon mémoire de stage, enfin François PELLEGRINO m’a introduit à l’Identification Automatique des Langues, et m’a apporté le soutien de la région Rhônes-Alpes à travers le projet émergence. Ensuite, j’ai eu l’honneur de travailler avec Morten CHRISTIANSEN sur des thématiques assez proches de celles développées dans cette thèse.

Je leur suis reconnaissant de m’avoir faire connaître leurs domaines de recherches respectifs que j’espère avoir étudié au mieux dans cet ouvrage. Je tiens également à témoigner de l’aide précieuse des doctorants, maintenant post-doctorants ou chargés de recherche, avec qui j’ai pu travailler. Jérôme FARINAS a été d’un brillant secours pour mes questions concernant le Traitement Automatique des Langues. Franck RAMUS a fourni une partie du matériel parole employée dans cette thèse. Olivier CROUZET m’a judicieusement conseillé sur les outils pour traiter la parole et m’a éclairé sur la psycholinguistique, j’exprime aussi toute ma gratitude à Christelle DODANE qui m’a transmis une partie de son savoir sur la prosodie, et avec qui j’ai pris conscience des difficultés qu’il pouvait exister pour communiquer entre deux cultures scientifiques distinctes.

Grâce à eux, je peux enfin remercierceux qui s’intéressent à mes recherches : Harriet JISA qui a des fins comparables aux miennes, mais avec des moyens différents, Axel CLEEREMANS, qui a su montrer l’intérêt des réseaux de neurones pour la psychologie, Yves BURNOD qui crée des ponts entre le monde des neurosciences et le traitement de la parole, ainsi que François PELLEGRINO et Peter Ford DOMINEY qui ont accepté de constituer mon jury de thèse.

Je remercie très chaleureusement Daniel HIRST et Axel CLEEREMANS pour avoir répondu présent à la dernière minute et consacrer une partie de leur temps pour relire ma prose.

Un grand merci pour toute l’équipe scientifique, technique et administrative de l’Institut des Sciences Cognitives (Patrice, Marc, Sabine, Anne, Carole, Hassen, Belkacem, Yves, Guy, Ira, Anne, Nadine, Emmanuelle, Sylvie, Jean-Baptiste). Je n’oublie pas non plus de remercier les pauses de l’institut, dont l’ambiance est assurée chaque jour par Hyung, Flavie, Fabrice, Nathalie, Lewis, Zoltan, Thomas, Michel, Sonia, Nelly, Wafa, David, David, Yannick, Emmanuelle, Nadia, James, Aurélie, Stéphanie, Jean-Yves, Nausicaa, Alexandre, Thierry.

Babaga Brrffff Loïc pour m’inspirer de nouveaux sujets de recherches. Enfin ma dernière pensée va à celle qui a « subit la thèse » du début jusqu’ à la fin, et qui a su rester près de moi pendant tout ce temps, et être mon premier relecteur anonyme.

Résumé

Traitement de la Prosodie par un Réseau Récurrent Temporel

Un Cadre Unifié pour l’Identification Automatique
des Langues, des Attitudes Prosodiques, et des Catégories Lexicales.

La prosodie nous est directement accessible lorsque nous écoutons une langue étrangère. Quel mécanisme peut traiter la prosodie de la parole ? Un réseau récurrent temporel (TRN) vérifiant des études neurophysiologiques sur l’apprentissage de séquences par le primate a été testé pour l’identification de contours prosodiques définis sur différentes échelles réparties sur un continuum temporel.

Le rythme d’une langue peut être caractérisé globalement. Le réseau TRN identifie cinq langues européennes à partir d’un cochléogramme (65%). En employant la fréquence fondamentale, le réseau reconnaît six attitudes (modes syntaxiques et émotions) et distingue les mots de fonction et de contenu, deux catégories lexicales, à l’origine de l’amorçage de la syntaxe. Lorsque le modèle est altéré de façon à amoindrir sa sensibilité temporelle, cette catégorisation ne s’effectue plus et le profil des réponses à deux tâches de traitement auditif rapide est semblable à celui d’enfants ayant des troubles spécifiques du langage, en particulier pour la syntaxe. En outre, ce modèle réplique deux discriminations prosodiques réalisées par des nouveau-nés : les langues sont distinguées en fonction de leur classe rythmique et les mots de fonction se distinguent des mots de contenu.

En résumé, le réseau TRN accomplit trois tâches dans lesquelles la prosodie se définit entre un domaine global (une langue) et local (un mot) : Identification Automatique des Langues et des Attitudes Prosodiques ; Discrimination des mots de Fonction et de Contenu. Enfin, des troubles auditifs pour le traitement d’événement rapide et des troubles de la syntaxe peuvent être simulés par une déformation de la sensibilité temporelle du réseau.

Abstract

Prosody processing by a Temporal Recurrent Network
A common framework for Automatic Identification of
Languages, Prosodic Attitudes, and Lexical Categories.

Prosody is directly accessible to us when hearing a foreign language. What is the mechanism implicated in the processing of speech prosody ? A Temporal Recurrent Network (TRN) inspired by neurophysiologic studies for sequences learning by primates has been tested for the identification of prosodic contours.

Language rhythm can be globally defined. The TRN identify five European languages (50%) based on the automatic segmentation of speech in consonants and vowels, but also with a cochleogram (65%).

With the fundamental frequency, the network identifies six prosodic attitudes (syntactic modes and emotions) and distinguishes content from function words, two lexical categories that could bootstrap syntax. When the model is distorted in order to reduce its temporal sensitivity, this categorization could not be realized, and the pattern of response to two rapid auditory processing tasks resembles that of children with Specific Language Impairment, in particular for syntax.

In addition, this model replicates two experiments of prosodic discrimination realized by new-borns: languages are distinguished according to their class rhythm and function words are discriminated from content words.

In brief, the TRN accomplishes three tasks where prosody is defined on different temporal domains: from language (global field) to word (local field): Automatic Identification of Languages, and prosodic attitudes; Discrimination of content and function words. Finally auditory and language specific troubles could be simulated when the temporal sensitivity of the network is weaken.