II.2.Contribution des différentes disciplines

Cette thèse fait intervenir deux disciplines piliers des sciences cognitives : les neurosciences computationnelles et la linguistique. A travers celles-ci, sont touchées les problématiques de la prosodie, de la perception, de l'apprentissage de séquences, de la représentation du temps et du traitement automatique de la parole.

Notre but est de démontrer qu’un modèle issu des neurosciences peut être adapté au traitement de la prosodie. Quelques modèles neuro-réalistes ont été testés sur la reconnaissance de mots isolés dans le signal de parole (Liaw et Berger, 1998 ; Nachtschläger, Maass, et Zador, 2000 ; Näger, Storck, et Deco, 2002). Cette opération est effectuée en Traitement Automatique de la Parole, mais ne correspond pas au traitement naturel où les mots sont peu souvent isolés. C’est pourquoi, nous avons proposé de tester le modèle TRN avec d’autres tâches, qui interviennent à un moment donné dans le processus de compréhension de la parole, mais aussi dans un cadre plus large d’acquisition du langage. En particulier, le modèle TRN a permis d’analyser le signal de parole, sans que celui-ci soit réduit à une succession de symboles discrets, comme des phonèmes ou des syllabes, qui demandent une expertise linguistique élevée pour pouvoir les identifier.

La totalité du travail expérimental repose sur l’informatique. Nous avons utilisé le langage C++ pour recoder l’algorithme du TRN, de façon à avoir une structure dynamique pour l’architecture du réseau (nombre d’unités et de couches variables). Tous les développements et tests de nouvelles méthodes ont été réalisés sous Matlab. Le traitement initial des données a été effectué à l’aide de script shell, et des outils sed, awk ou perl. Enfin, les catégories syntaxiques ont été retrouvées par l’utilisation d’outils de linguistique computationelle, comme CLAN ( www.childes.com ).

Ainsi à partir des théories élaborées par d’autres domaines de recherches, nous pouvons proposer de nouveaux algorithmes pour des applications informatiques, comme l’identification automatique des langues.

Toutes les tâches étudiées ont nécessité des connaissances techniques permettant le traitement du signal audio. Les outils de traitement de la parole utilisés par les phonéticiens (PRAAT) se sont révélés particulièrement utiles pour fournir une représentation des différentes dimensions acoustiques du signal (Fréquence fondamentale, énergie, formants et représentation spectrographique).

Si l’essentiel de notre travail est fondé sur l’informatique, les concepts employés proviennent d’axe de recherche divers. L’acquisition du langage permet d’appréhender le signal de parole avec un minimum de connaissances linguistiques. Comprendre la mécanique de l’apprentissage d’une langue peut, non seulement, améliorer les techniques de traitement automatique de la parole, mais aussi fournir des solutions pour faciliter la construction des modèles d’une langue. La construction de ces modèles nécessite l’intervention d’experts linguistes, qui ne sont pas présents lors de l’acquisition du langage.

Des connaissances sur les troubles pathologiques (enfants SLI) ont permis d’avoir une vision complémentaire sur la parole. En étudiant ces populations (à travers la littérature), l’accent est mis sur l’importance des évènements temporels rapides, comme les transitions formantiques, ou les contours intonatifs. Effectivement, si ces indices sont mal perçus, le langage peut être perturbé.

De même, nous aurions voulu pousser plus loin nos connaissances en psychoacoustique, pour obtenir une représentation plus précise des données acoustiques à transmettre au réseau. Par exemple, la prosodie n’est pas accessible dans toutes les représentations que nous avons étudiées. Un spectrogramme classique permettra d’accéder aux différents phonèmes. Pour représenter la prosodie, il faudra utiliser un spectrogramme à bande étroite. Or l’oreille humaine est dotée d’une bonne résolution temporelle. Par conséquent, le spectrogramme à bande étroite est un assez mauvais modèle d’oreille, même si il est adaptée à la prosodie, et aux tâches qui s’y rapportent, comme nous l’avons démontré. En psychoacoustique, ce problème est connu sous le nom de paradoxe de résolution-intégration.

En quoi le modèle présenté dans cette thèse est-il adapté au traitement de la prosodie ?