V.3.La musique

Les expériences ayant trait à l’IAL ont montré que le réseau TRN pouvait distinguer les langues en fonction de leurs classes rythmiques. Cette méthode ne permet pas de retrouver les phonèmes, mais donne une caractérisation globale des trajectoires de la F0 et des formants.

Le rythme est mieux défini pour la musique, que pour la parole. Pour extraire le rythme d’une pièce musicale, il faut être en mesure d’extraire des indices rythmiques, comme un brusque changement d’intensité. Un certain nombre de règles ont été avancées pour expliquer la détection des événements sonores dans un flot continu (Bregman, 1994, cf. chapitre 2 section II.1.1). L’architecture du réseau TRN doit permettre de respecter une partie de ces règles. Une expérience simple, menée avec le TRN doit pouvoir montrer que des sons démarrant à des instants différents peuvent être isolés. En outre, la condition de programmation de la transformation (effet rendu par le vol du Bourdon) doit pouvoir être reproduite (expérience de Van Noorden, 1975), sachant que deux sons voisins en fréquence donnent des vecteurs proches après l’encodage du TRN. Ceci est rendu par la nature gaussienne du codage de F0, et pourrait être accentué en modifiant la distribution des connexions entre la couche d’entrée, et les couches internes.

Des expériences comportementales permettent de poser certaines contraintes sur le mécanisme de perception. Par exemple, les sujets semblent privilégier une représentation par contour de la mélodie (Deutsch, 1980). Cette expérience pourrait être simulée avec le TRN, pour vérifier notre mécanisme.

L’étape suivante pour percevoir le rythme est de représenter une séquence des marques rythmiques. Les auditeurs humains perçoivent et utilisent les hiérarchies pour mémoriser des séquences musicales. Il conviendrait de tester le modèle pour des types simples et complexes de mélodies (Deutsch, 1980). Lorsque la surface musicale coïncide avec la structure hiérarchique de la mélodie, les performances du modèle doivent être optimum. Cependant, il est difficile de dire si ce phénomène peut être retrouvé sans modifier le modèle TRN.

Pour finaliser un modèle de traitement du rythme chez l’être humain, il devra être insensible aux variations de tempo. Cette particularité semble être celle d’un modèle assez simple, dans la mesure où même les oiseaux sont insensibles à ces variations. Une première expérience, effectuée avec les attitudes prosodiques, montre que le réseau est peu sensible au ralentissement « artificiel » de la parole, mais des expériences beaucoup plus complètes devraient être envisagées pour étudier cette propriété.

La musique tient également une place importante dans le « parler bébé » en terme de mélodie : les tierces, les quartes, les quintes et les octaves (Fernald, 1976) y sont prédominantes. Ce rapport original entre musique et parole est probablement lié au système auditif, et plus particulièrement au mécanisme de perception de la hauteur. Des contraintes biologiques de traitement peuvent expliquer le choix de certains rapports fréquentiels (octave et quinte), qui apparaissent plaisant à l’oreille (Cariani, 1999). Les rapports entre musique et acquisition du langage (Dodane, 2003 ; Saffran et coll., 1999) pourraient faire l’objet d’études approfondies, en tenant compte d’un modèle unique pour simuler des tâches de traitement avec de la parole et de la musique.