Le modèle MUSACT

MUSACT (pour Music Activation, modèle d’activation musicale) est un modèle des connaissances tonales proposé par Bharucha (1987), et étendu à l’apprentissage de ces connaissances par Tillmann et al. (2000). MUSACT est un modèle connexionniste dans la lignée des modèles de reconnaissance de mots de McClelland et al. (McClelland & Rumelhart, 1981 ; McClelland & Elman, 1986). MUSACT est un réseau de neurones artificiels à trois couches interconnectées : La première couche compte 12 unités représentant les notes chromatiques, la deuxième couche compte 24 unités représentant les 12 accords majeurs et les 12 accords mineurs construits sur les notes chromatiques, et la troisième couche compte 12 unités représentant les 12 tonalités majeures. Chaque unité de notes est connectée à 6 unités d’accords (les 3 accords parfaits majeurs et les 3 accords parfaits mineurs comprenant la note en question), et chaque unité d’accord est connectée à 3 unités de tonalité (les 3 tonalités majeures comprenant l’accord en question). Ce patron de connexions représente l’organisation globale du système tonal. Contrairement à la TPST, les connaissances ne sont pas représentées spatialement mais distribuées à travers les connexions entre unités d’un réseau de neurones (Figure 1.2.10).

Figure 1.2.10. Représentation du modèle MUSACT. D’après Bharucha, 1987. Les connexions entre unités reflètent l’appartenance des notes aux accords, et des accords aux tonalités. Les flèches représentent les activations ascendantes et descendantes qui se propagent entre unités jusqu’à ce que les activités des unités soient stabilisées (équilibre du réseau).
Figure 1.2.10. Représentation du modèle MUSACT. D’après Bharucha, 1987. Les connexions entre unités reflètent l’appartenance des notes aux accords, et des accords aux tonalités. Les flèches représentent les activations ascendantes et descendantes qui se propagent entre unités jusqu’à ce que les activités des unités soient stabilisées (équilibre du réseau).

MUSACT simule la perception des relations tonales par des cycles de propagation/réverbération d’activations au sein du réseau, en réponse aux stimuli musicaux. Par exemple, quand l’accord de Do Majeur est joué, les unités de notes Do, Mi, et Sol sont activées et activent dans un premier cycle les unités d’accords auxquelles elles sont connectées (propagation « ascendante »). L’unité de Do Majeur reçoit le plus d’activations et est la plus activée. Les unités d’accords activent alors dans un second cycle les unités de tonalités auxquelles elles sont connectées (propagation « ascendante »), tout en renvoyant de l’activation vers les unités de notes auxquelles elles sont connectées (réverbération « descendante »). Au troisième cycle, les unités de tonalités renvoient des activations vers les unités d’accords (réverbération « descendante »), et les unités de notes renvoient des activations vers les unités d’accords. Ces cycles de propagation/réverbération continuent jusqu’à ce qu’un équilibre soit atteint (i.e., différence d’activation entre un cycle et le cycle précédent inférieure à un certain seuil). Lorsqu’une pièce musicale est présentée au modèle, les activations provoquées par les événements successifs se cumulent, de façon modulée par un facteur de demi-vie qui fait diminuer l’activation liée à un événement de manière exponentielle avec le temps. L’activation totale a i,e d’une unité i suite à un événement e à un instant t est la somme de trois activations : (1) l’activation ascendante due directement à l’événement e, (2) l’activation indirecte reçue des autres unités au cours de q cycles de propagation/réverbération en réponse à l’événement e, et (3) l’activation résiduelle due aux événements précédents, avec un facteur de demi-vie d. La formule donnant l’activation totale est :

Dans le modèle de Bharucha (1987), les connexions entre unités ainsi que les poids de ces connexions étaient prédéfinis sur la base de la théorie musicale ; MUSACT représentait donc un état final idéalisé des connaissances tonales. Tillmann et al. (2000) ont montré que cet état final du modèle pouvait émerger par simple exposition à des séquences de musique tonale. Les auteurs ont défini un modèle de cartes auto-organisatrices hiérarchiques (HSOM ; Lampinen & Oja, 1992) et l’ont entraîné avec l’apprentissage non-supervisé du modèle de Kohonen (1995). La carte définie par les auteurs était une carte à trois couches : une couche de 12 unités d’entrée correspondant aux notes chromatiques, une couche intermédiaire de 36 unités, et une couche supérieure de 16 unités. Initialement, la première et la deuxième couche, ainsi que la deuxième et la troisième couche, ont été interconnectées avec des connexions bidirectionnelles de poids aléatoires. Le modèle a ensuite été entraîné, avec des séquences de musique tonale en entrée, selon l’algorithme des cartes auto-organisatrices de Kohonen (1995). Cet algorithme simule un apprentissage non supervisé et repose sur deux principes : la notion d’apprentissage concurrentiel, c’est-à-dire l’idée que la spécialisation de réponse d’une unité à un type de stimulus s’acquière par compétition entre unités, et la notion de voisinage, c’est-à-dire l’idée que les unités répondant à des stimuli proches doivent être topologiquement voisines. En présence d’un stimulus, les unités d’entrée correspondant à ce stimulus sont activées et activent à leur tour des unités de la couche supérieure. Les poids des connexions n’étant pas identiques mais ayant été initialisés aléatoirement, les unités de la couche supérieure ne sont pas toutes activées avec la même force. L’unité la plus activée - l’unité gagnante - a alors le poids de sa connexion entrante augmenté, ainsi que les poids des connexions entrantes de ses unités voisines. L’apprentissage consiste à exposer la carte à différents stimuli pendant un certain nombre de cycles (entre 200 et 1000 dans Tillmann et al., 2000). À chaque cycle, les poids associés aux unités répondant le plus fortement au stimulus sont augmentés, ainsi que les poids des unités voisines, alors que les poids des unités situées en dehors de la zone de voisinage sont gardés constants. La taille de la zone de voisinage est réduite au fil des cycles, de sorte que la spécialisation des unités s’accroît au fil des cycles. Le résultat de cet apprentissage concurrentiel mime l’organisation topologique du cerveau, où les inputs sensoriels sont traités par des structures topologiquement ordonnées (par exemple, l’organisation tonotopique pour le traitement des inputs auditifs, qui correspond à un regroupement des structures spécialisées dans le traitement d’une fréquence, cf. 1.1.1). Après apprentissage, les connexions reliant des unités non spécialisées sont supprimées. La pertinence de cette procédure pour modéliser l’acquisition de connaissances implicites, comme les connaissances du système tonal, est que l’on passe de cartes non organisées à des cartes modélisant une représentation des connaissances par simple exposition à des stimuli, sans instructions guidant l’organisation des cartes. Dans le cas qui nous intéresse, la présence de deux couches supérieures en plus de la couche d’entrée a conduit Tillmann et al. à faire un apprentissage en deux phases. Dans la première phase (phase d’entraînement avec des accords), les unités de la seconde couche se spécialisaient dans la détection de triplets de notes, jusqu’à ce que chacun des 24 triplets correspondant aux 12 accords majeurs et aux 12 mineurs active spécifiquement une unité de la seconde couche. Dans la deuxième phase, les unités de la troisième couche étaient entraînées avec 12 séries de 6 accords, chaque série étant constituée de 3 accords majeurs et 3 accords mineurs d’une tonalité. Les unités de la troisième couche se spécialisaient donc dans la détection d’une tonalité. Une fois l’apprentissage terminé, les cartes obtenues présentaient des patrons d’activations qui corrélaient presque parfaitement avec ceux de MUSACT. Le modèle idéalisé des connaissances tonales qu’est MUSACT peut donc émerger d’une simple exposition à des séquences de musique tonale.

MUSACT a l’avantage sur la TPST de proposer un modèle où les connaissances implicites des régularités du système tonal émergent par simple exposition aux stimuli musicaux. De plus, MUSACT a l’avantage d’être plus parcimonieux que la TPST puisqu’un accord n’y est représenté qu’une seule fois (contre une fois dans l’espace de base et une fois dans l’espace des accords pour la TPST). Cependant, MUSACT est un modèle de l’organisation tonale plus simplifié que la TPST (notamment parce qu’il se limite aux accords parfaits, et ne prend pas en compte les accords diminués ou augmentés).

L’étape suivante était de valider le modèle de connaissances MUSACT obtenu par HSOM en testant sa capacité à simuler la perception musicale des auditeurs. C’est ce qu’ont réalisé Tillmann et al. (2000) : Ils ont notamment montré que le réseau MUSACT obtenu à partir du modèle de cartes d’auto-organisation hiérarchique simulait les résultats des expériences de jugements de similarité (Bharucha & Krumhansl, 1983 ; Krumhansl et al., 1982), les résultats des expériences de mémoire (Bharucha & Krumhansl, 1983), et les résultats des expériences d’amorçage harmonique (Bharucha & Stoeckig, 1987 ; Tekman & Bharucha, 1998 ; Bigand & Pineau, 1997 ; Tillmann, Bigand, & Pineau, 1998).