Les données transmises au TRN sont des représentations du signal acoustique, obtenues par une détection automatique des consonnes et des voyelles, un cochléogramme, ou des représentation spectrographique des basses fréquences.
Dans le cas du corpus MULTEXT, le rythme est donné par la succession des consonnes et des voyelles, détectées automatiquement par l’algorithme développé par Pellegrino (1998). Les unités rythmiques de base sont obtenues à partir de l’algorithme « Forward-Backward Divergence » 86 . Les pauses sont mises de côté grâce à un détecteur d’activité vocale. Les voyelles sont reconnues à partir de l’énergie contenue dans les fréquences basses du signal, indépendamment du locuteur et de la langue 87 . Chaque passage d’une langue est traduit par une liste contenant la succession des consonnes, des voyelles et des silences éventuels, ainsi que la durée de chacun de ces événements. Le corpus OGI-MLTS a été fourni avec une segmentation en consonnes et voyelles obtenue manuellement.
La couche d’entrée du réseau TRN est composée de deux neurones, l’un codant les consonnes, l’autre les voyelles. Si une voyelle dure 80 ms, le neurone codant la voyelle sera activé pendant 16 itérations. Les silences sont traduits par une absence de signal d’entrée.
Les segments les plus courts correspondent aux explosions (burst) et aux parties transitoires, et les plus longs aux zones stables des voyelles.
Seuls les silences de plus de 150 ms sont pris en compte. Tout ce qui n’est pas reconnu comme une voyelle est alors assimilée à une consonne.