2.3. Expérience 1 : Compression temporelle du trait de voisement

2.3.1.Méthode

2.3.1.1.Stimuli

Le matériel expérimental était composé de 64 pseudo-mots bisyllabiques de forme Consonne-Voyelle-Consonne-Voyelle (CVCV) et de 16 distracteurs de forme Voyelle-Consonne-Voyelle (VCV). Pour les consonnes, nous avons opté pour les quatre consonnes occlusives /b d p t/ pour plusieurs raisons. Premièrement, ces consonnes sont composées de segments acoustiques courts et rapides (silence, explosion, transitions et des indices liés au trait de voisement). Deuxièmement, de nombreuses études en perception ont porté sur ces consonnes (Serniclaes, 1987 ; Snoeren, Hallé, & Segui, 2006). Les quatre consonnes occlusives de la langue française sont différenciables par leur voisement (voisée : /b d/ ounon voisée : /p t/) et leur lieu d’articulation (bilabial : /b p/ oualvéolaire : /d t/). Les voyelles accompagnatrices /i/ et /a/ (les plus fréquentes dans le système vocalique français) ont été choisies de façon à ce qu’une grande variabilité acoustique entre les syllabes soit obtenue. Les voyelles, toutes deux antérieures, se différencient par leur degré d’aperture : /i/ est la voyelle la plus fermée alors que /a/ est la plus ouverte (elles occupent des positions très écartées dans le triangle vocalique). Toutes les combinaisons ont été générées : (4C1 x 2V1 x 4C2 x 2V2 = 64 C₁V₁C₂V₂) (Tableau 1). La position des consonnes sera un facteur testé dans nos analyses statistiques : C₁ correspond à la position en attaque et C₂ à la position intervocalique. Les distracteurs ont été construits de la même manière (p. ex. /ipa/).

Les stimuli ont été produits par un seul locuteur français et enregistrés dans une chambre sourde avec un microphone Sony ECM-MS907. Les pseudo-mots ont été répétés trois fois de manière isolée et la meilleure version a été choisie, en nous basant à la fois sur l’observation du signal acoustique et du spectrogramme. Les fichiers sons étaient sauvegardés sous le format waveform audio (WAV) et échantillonnés à 22 kHz (stéréo, 16 bits).

Tableau 1 : Distribution des combinaisons des consonnes d’attaque et intervocaliques avec les voyelles dans les stimuli.

Chaque item a été segmenté manuellement et la durée de chaque indice acoustique (le voisement et les transitions des formants) a été mesurée manuellement à l’aide du logiciel Praat. Nous avons observé d’une part, la forme de l’onde acoustique ainsi que le spectrogramme du signal, d’autre part, nous avons utilisé la transcription du pseudo-mot ainsi que l’enregistrement sonore du signal. Ainsi, le trait de voisement a été segmenté à partir du début des pulsations périodiques régulières jusqu’à la détente de l'occlusion : pour les occlusives voisées, nous parlons de barre de voisement (ou prévoisement) alors que pour les occlusives non voisées, nous parlons de Voice Onset Time (ou, Délai d’Établissement du Voisement, en français). Cette segmentation rend compte de différences entre les segments manipulés pour les occlusives voisées et non voisées. Pour les occlusives voisées, nous manipulons la durée de l’occlusion alors que pour les occlusives non voisées, nous traitons un segment qui comprend une plus grande quantité d’informations (principalement le bruit d’explosion de la consonne). La transition du F2 a été délimitée à partir du début du F2, elle correspond à des changements fréquentiels brusques et rapides, lors de la transition entre la consonne et la voyelle, jusqu’à la partie stable de la voyelle mesurée sur une représentation spectrographique en délimitant la zone où les formants sont parallèles à l’axe du temps. La Figure 16 montre, de manière schématique, les différents indices acoustiques que nous avons manipulés.

Figure 16 : Schéma représentant les indices acoustiques manipulés dans nos expériences, la barre de voisement, le VOT positif et les transitions formantiques. (a) Exemple d’une occlusive voisée et (b) d’une occlusive non voisée, quelle que soit la voyelle qui suit.

Pour les deux indices de chaque syllabe CV, la durée a été compressée selon quatre conditions expérimentales : une condition naturelle correspondant à la durée initiale (100%), une condition 50% correspondant à 50% de la durée initiale, de même, une condition 25% et une condition 0% où les traits sont entièrement supprimés. Un exemple de stimulus est présenté dans la Figure 17. Un pré-test a permis d’établir les taux de compression à partir desquelles une perte d’intelligibilité était observée. Les compressions temporelles des traits acoustiques ont été faites dans Praat suivant la méthode Pitch-Synchronous Overlap Add (PSOLA) (Charpentier & Stella, 1986). L’intérêt de cette méthode est que l’intelligibilité et la qualité du signal reste très bonne même lorsqu’on accélère le signal d’un facteur 2. La hauteur originale du signal est conservée. L’important est que même s’il existe des changements au niveau spectral, ils ne sont pas perçus par les auditeurs ou ils ne sont pas pertinents au niveau phonétique. Pour raccourcir la durée, avec PSOLA, la première étape va être le marquage des oscillations périodiques ainsi que des morceaux sans oscillations où des marqueurs sont placés à des intervalles moyens. La seconde étape est la suppression de manière linéaire de certaines périodes du signal (1 sur 2) afin d’obtenir la durée voulue. Ensuite, l’étape suivante est l’addition des différentes parties ce qui va donner un signal avec moins d’oscillations périodiques que le signal d’origine. Pour résumer, le but de l’analyse est d’effectuer un fenêtrage exactement synchronisé aux périodes fondamentales du signal. Le signal de synthèse est alors reconstitué par superposition-addition (overlap-add) de ces formes d’onde élémentaires. De plus, les indices segmentés du signal acoustique peuvent être compressés alors que le reste du signal reste intact.