Le modèle d’apprentissage statistique de Pearce et Wiggins

Le modèle de Pearce et Wiggins (2006), bien que s’inspirant lui aussi des principes du modèle I-R, est radicalement différent des modèles présentés précédemment car il s’appuie sur une approche d’apprentissage statistique. Partant du constat que les règles d’un modèle comme l’I-R sont trop rigides pour être psychologiquement plausibles, ces auteurs ont conçu un modèle computationnel qui, sans connaissances a priori, apprend à prédire les attentes mélodiques des auditeurs par simple exposition aux régularités statistiques de la musique occidentale tonale. Leur modèle prend en entrée des séquences mélodiques dont il encode les notes sous la forme de tout un ensemble d’attributs. Parmi ces attributs, citons le temps où débute la note (« onset »), la durée de la note, sa hauteur, l’intervalle de temps séparant deux notes successives (« interonset interval »), l’intervalle musical formé par deux notes successives, le contour, le degré tonal de chaque note, etc…. Les attributs peuvent aussi être une conjugaison de deux attributs basiques, par exemple la conjugaison de l’intervalle mélodique et de l’intervalle de temps entre deux notes successives peut être considéré comme un attribut à part entière.

Le modèle d’apprentissage statistique utilisé est un modèle de n-gram, qui est un type de modèle fréquemment utilisé en modélisation de traitement statistique des langues (Manning & Schütze, 1999). Un n-gram est une sous-séquence de n objets tirée d’une séquence donnée, et un modèle de n-gram est une collection de sous-séquences de ce type associées à une fréquence d’occurrence dans la collection. L’apprentissage se fait pendant une phase d’entraînement où le modèle acquiert les fréquences d’occurrence associées aux n-grams (pour toutes les valeurs de n, depuis n=1 qui est une note isolée jusqu’à la valeur de n associée à la mélodie entière). Cet entraînement permet d’aboutir à une distribution de probabilités pour la n-ième note étant donnée les n-1 notes précédentes. Lorsque le modèle entraîné est exposé à une mélodie, il peut alors donner la probabilité qu’a chacune des 12 notes chromatiques d’être réalisée, ce qui revient à prédire le degré d’attente de ces notes. Pearce et Wiggins utilisent un modèle de n-gram par attribut des notes (un pour prédire les hauteurs, un pour les durées, un pour les intervalles, etc…). Pour chaque note d’une mélodie, chaque attribut est prédit avec deux modèles : d’abord un modèle à long terme qui a été entraîné sur tout le corpus de mélodies d’entraînement à l’étape précédente (i.e., pour la n-1-ème note des mélodies si on en est à la n-ème note), et ensuite un modèle à court terme qui est entraîné de manière incrémentielle pour chaque mélodie individuelle en train d’être prédite. Les prédictions de tous ces modèles sont ensuite combinées. L’utilisation de modèles à long terme et à court terme a pour but de refléter, respectivement, l’influence (sur les attentes) des connaissances des auditeurs qui préexistent à l’écoute de la mélodie en cours, et l’influence de la partie des connaissances des auditeurs que l’écoute de la mélodie en cours engendre. L’utilisation d’un grand nombre d’attributs a pour but de refléter l’influence des régularités structurelles dans un grand nombre de dimensions de la surface musicale.

Les auteurs ont notamment (Expérience 2) comparé les prédictions d’attentes mélodiques de leur modèle aux attentes de participants observées avec des extraits de chants traditionnels anglais par Schellenberg (1996) : ces attentes ont été correctement simulées par le modèle (83% de la variance des jugements des participants expliquée). La sélectivité du modèle a été vérifiée en générant aléatoirement 50 jeux de jugements de complétion pour les stimuli de Schellenberg (ces valeurs aléatoires ont été obtenues par échantillonnage aléatoire à partir d’une distribution normale de moyenne et d’écart-type égal à la moyenne et à l’écart-type des participants de l’expérience de Schellenberg). Seuls deux de ces 50 jeux de valeurs ont été simulés avec succès, ce qui assure la bonne sélectivité du modèle. Les auteurs ont recherché quels étaient les attributs qui expliquaient le plus de variance (et donc qui rendraient le mieux compte des attentes des auditeurs). La hauteur de note, en particulier lorsqu’elle est conjuguée à l’intervalle de temps entre notes, la conjugaison du degré tonal et de l’intervalle mélodique, l’intervalle entre la note cible et la première note de la mesure, et l’intervalle entre la note cible et la première note de la mélodie, sont les attributs qui contribuent le plus à expliquer les attentes des participants.

Le modèle de Pearce et Wiggins a l’intérêt par rapport aux modèles vus précédemment de parvenir à simuler des attentes perceptives sans règles explicites, par apprentissage statistique des régularités des stimuli. De plus, l’approche qui consiste à coder des attributs des notes, à faire des modèles de n-gram pour chaque attribut et à combiner ces modèles pour obtenir la prédiction finale donne une grande souplesse au modèle : certains attributs peuvent être ajoutés ou enlevés selon la nature et la complexité du stimuli que l’on veut simuler. Le modèle de Pearce et Wiggins permet donc la prise en compte et la combinaison à volonté d’attributs musicaux. Ceci permet en particulier de prendre en compte la dimension temporelle de la musique et de l’intégrer à la dimension de hauteur (au contraire des modèles de Narmour, Schellenberg ou Margulis qui ne prennent en compte que la dimension de hauteur). Un autre modèle qui intègre la dimension de hauteur et la dimension temporelle est le modèle de l’attention dynamique de Jones.