V.Perspectives

Trois grandes directions peuvent continuer ces travaux : la segmentation en mot du signal de parole, l’obtention d’un modèle plus complet du traitement auditif et l’application de nos méthodes à la musique.

V.1.La segmentation

Nous avons décrit dans chaque chapitre expérimental les perspectives potentielles pour chaque tâche prosodique. Nous pensons que l’ensemble de ce travail pourrait être poursuivi pour modéliser un système de traitement auditif général.

Des différences prosodiques locales permettent de définir les phrases ou les propositions (pauses, allongements des voyelles). Effectivement deux indices prosodiques, l’allongement et le contour de F0, contribuent aux processus de segmentation de la parole, et du stockage des mots d’un mini-langage artificiel (Bagou et coll., 2002). Le TRN pourrait être testé dans cette optique de segmentation du signal, pour les phrases, ou les mots. Il semble que les propriétés du TRN pour le signal de parole ou la prosodie pourraient permettre cette segmentation.

Le modèle TRN a déjà montré ces capacités de segmentation à travers la tâche de Saffran et coll. (1996). Les modifications apportées au TRN dans cette thèse suggèrent qu’une représentation spectrographique du signal de parole pourrait être utilisée pour simuler cette même expérience. En outre, cette simulation était effectuée à partir d’une représentation syllabique du flot de parole (Dominey et Ramus, 2000).

La localisation des marques du rythme semble faire appel à une procédure de segmentation (Trehub et Taylor, 1994). Cette expérience pourrait être modélisée avec le TRN, de façon à vérifier que le TRN peut percevoir des différences spectrales, de F0 et d’amplitude.

En outre, cette segmentation pourrait être employée dans le contexte de l’IAL. Cette procédure permettrait de diminuer le nombre de motifs à conserver pour caractériser une séquence de parole, lors de l’utilisation de la méthode Accumulation.

La modélisation de cette tâche de segmentation comporte d’autres intérêts. Avec un modèle informatique, il serait plus rapide de tester cette même hypothèse de segmentation sur plusieurs langues. Johnson et Jusczyk (2001) soulignent justement le manque de preuve cross-linguistique pour cette tâche. En outre, cette expérience a été répliquée avec des notes de musiques remplaçant les syllabes chez les nouveau-nés (Saffran, Johnson, Aslin et Newport, 2001). Se faisant, notre modèle pourrait être testé pour la segmentation de la musique et de la parole.

De surcroît, une simulation permettrait de tester le lien entre la segmentation et la structure prosodique des langues. Effectivement, la prosodie peut permettre de choisir le système de segmentation. Cutler (1990 et 1996) a proposé que la segmentation en mot se fonde sur des propriétés prosodiques comme la position de l’accent sur les premières syllabes des mots, pour les langues accentuelles. Les langues syllabiques ont généralement l’accent sur la dernière syllabe. Dans ce contexte, les sujets adultes confondent plus facilement des langues ayant les mêmes propriétés prosodiques pour découper le signal en mots (Bond et coll., 1998).