IV.1.3.Un système unique pour le traitement des informations continues

Une partie de notre travail consiste à établir une architecture unique pour répondre à plusieurs tâches de traitement de la prosodie. Ce mécanisme a su évoluer depuis un système présent chez les primates pour traiter leurs vocalisations, qui contiennent de nombreuses variations temporelles rapides (Wang, 2000). Dans notre cas, le modèle TRN avait d’abord été conçu pour reproduire les résultats d’une tâche d’apprentissage de séquences sensori-motrices effectuée chez le primate non-humain (Dominey et coll., 1995).

Les chaînes de Markov Cachés constituent une réponse unique à de nombreux problèmes de traitement de la parole. Mais, ces modèles sont peu adaptés à l’intégration temporelle de différents types d’information sensorielle présents dans la perception et la compréhension de la parole. Ils ne proposent pas de solutions pour combiner des indices acoustiques définis sur des domaines temporels brefs (phonèmes) ou relativement longs (contour intonatifs). De plus, ces modèles nécessitent une segmentation en unité (syllabe, mot) adaptée au problème à traiter. Les simulations d’acquisition du langage basées sur des modèles connexionnistes requièrent aussi ce même type de segmentation (Christiansen et Dale, 2001). Pour la définition de modèle d’intonation au moyen de réseau récurrent (Buhmann et coll., 2000), une segmentation syllabiques est utilisée pour transmettre les informations de F0 au réseau.

L’affirmation selon laquelle des traits purement discrets constitueraient la base de la perception de catégories de phonèmes fait l’objet de sérieuses critiques (Massaro, 1987). Ladefoged (1975) concluait de ces expériences : ‘ « ’ ‘ Ainsi la segmentation phonémique n’est pas la base des aptitudes linguistiques, mais leur conséquence. De toute évidence, la perception de la parole utilise une capacité de perception holistique des patterns acoustiques. En outre, nous partageons ce mode perception des séquences acoustiques avec d’autres animaux. ’ ‘ » ’ (Warren, 1994).

Notre travail nous a permis de modifier le réseau récurrent proposé par Dominey et Ramus (2000) pour qu’il puisse traiter non plus des informations discrètes, mais des dimensions continues, telles que le contour intonatif ou le spectre du signal de parole. Ainsi, ce travail ne fait plus appel à une segmentation particulière du signal de parole, mais emploie une représentation temporelle, dont l’échantillonnage est bien inférieure aux unités étudiées (phrases et mots). Ce traitement est réaliste, puisque nous tenons compte de l’écoulement naturelle du temps. Ces deux points sont désignés sous l’expression de contrainte temporelle. C’est pourquoi, nous avons recours à des intégrateurs à fuite et des connexions récurrents pour procurer au réseau une mémoire locale et globale des informations.

La remarque précédente montre une différence importante par rapport aux modèles connexionnistes récurrents, comme le réseau proposé par Elman (1990). Dans le cadre de la modélisation de l’acquisition du langage, une représentation symbolique des données à traitées est employée (Christiansen et Dale, 2001).