4. État des recherches en reconnaissance visuelle

4.1. Arguments expérimentaux

Depuis les travaux princeps en anglais de Spoehr et Smith (1973) ayant mis en évidence un avantage pour la détection de mots monosyllabiques comparativement à des mots bisyllabiques (i.e., avantage interprété en terme de traitement séquentiel syllabe par syllabe), les travaux sur l’implication de la syllabe en reconnaissance visuelle ont été considérables. Les études de Prinzmetal, Hoffman et Vest (1991) et Prinzmetal, Treiman et Rho (1986) se sont appuyées sur le paradigme des conjonctions illusoires⁶ (Treisman & Schmidt, 1982) pour étudier l’implication éventuelle des unités infralexicalessyllabiques dans la reconnaissance d’items bisyllabiques en anglais. Les sujets devaient détecter une lettre-cible dans des mots et pseudomots bisyllabiques de cinq lettres brièvement présentés et scindés selon une règle particulière. En effet, la frontière syllabique était déterminée par deux couleurs différentes qui correspondaient ou non au découpage syllabique naturel de mots VC.CVC ou CVC.CV (e.g., VOD . KA ou VO D . KA ). Les mots sélectionnés avaient une frontière syllabique qui tombait systématiquement entre les consonnes du cluster consonantique (e.g., D.K) afin de se prémunir du phénomène d’ambisyllabicité. Les analyses, basées sur le nombre d’erreurs de report de la couleur de la lettre-cible, ont mis en évidence un nombre d’erreurs plus important respectant la frontière syllabique aussi bien avec les mots qu’avec les pseudomots, ce qui atteste de la nature prélexicale de l’effet syllabique. En d’autres termes, la couleur de la lettre-cible était moins bien rapportée (i.e., plus d’erreurs) quand celle-ci ne correspondait pas à la couleur de la syllabe à laquelle elle appartenait (e.g., VO DKA ) par rapport à la condition où couleur et découpage syllabique étaient superposés (e.g., VOD KA ). Pour les auteurs, ces erreurs renvoient à un groupement des lettres en unité syllabique. Cependant, l’effet syllabique ne serait possible que lorsque la frontière syllabique est déterminée d’un point de vue orthographique et phonologique. La syllabe phonologique seule serait insuffisante. La syllabe orthographique serait alors l’unité pertinente dans les traitements visuels. Si leurs résultats ont permis de spécifier la nature syllabique – orthographique – des unités utilisées en reconnaissance visuelle de mots, des critiques ont rapidement été formulées, notamment par Seidenberg (1987). Ce dernier a émis l’hypothèse que la détection de séquences syllabiques dans l’expérience de Prinzmetal et al. (1986) était biaisée par un phénomène de redondance orthographique (i.e., orthographic redundancy) et par une chute de la fréquence du trou bigrammique à la frontière syllabique (i.e., bigram through frequency). Plus précisément, la redondance orthographique renverrait au fait que les lettres d’une syllabe seraient plus fréquemment associées que celles chevauchant la frontière syllabique. Selon l’auteur, la segmentation ne serait efficace que dans la mesure où un cluster consonantique comme DK présenterait une plus faible cohésion orthographique à la frontière syllabique que les autres segments. Le segment DK bénéficierait d’une chute fréquentielle plus importante que VO ou KA, ce qui servirait d’indice pour déclencher une segmentation spécifique des mots. Néanmoins, Rapp (1992) en anglais et Carreiras, Álvarez & De Vega (1993) en espagnol se sont attachés à vérifier cette hypothèse statistique et ont confronté leurs résultats à ceux de Seidenberg (1987). Les données ont conclu que les effets syllabiques apparaissaient indépendamment de la chute de fréquence au niveau du cluster intervocalique.

Doignon et Zagar (2005) se sont également servis du paradigme des conjonctions illusoires afin de déterminer si, en français, la position dutrou bigrammique(caractéristiques orthographiques) ou la position de la frontière syllabique (caractéristiques phonologiques) influençaient l’utilisation de la syllabe comme unité de traitement visuel. Les auteurs ont manipulé dans trois expériences des mots bisyllabiques et plus spécifiquement la position du trou bigrammique et de la frontière syllabique. En s’appuyant sur la localisation du trou bigrammique et des frontières syllabiques naturelles, un ensemble de conditions a été obtenu (e.g., pour les mots loger et privé, la segmentation était congruente entre le trou bigrammique et la frontière syllabique, i.e., lo.ger et pri.vé ; pour les mots nasal et chute, selon le trou bigrammique, la segmentation s’effectuait en nas.al et pr.ivé alors que selon la frontière syllabique, la segmentation s’opérait en na.sal et pri.vé). Globalement, les résultats aux trois expériences sont intéressants à plus d’un titre. Effectivement, la conclusion qui a été tirée était que le traitement visuel des mots reposerait sur une activation concomitante des caractéristiques orthographiques et phonologiques. En réalité, cette conclusion s’appuyait sur le fait que les auteurs ne sont pas parvenus à dissocier les deux types d’informations et à isoler l’unité impliquée dans la détection visuelle de la lettre-cible. Les auteurs ont alors proposé que la syllabe phonologique et les caractéristiques statistiques orthographiques soient impliquées en reconnaissance visuelle de mots.

Rouibah et Taft (2001) ont testé le rôle de la syllabe phonologique, comparée au BOSS (Taft, 1979) et au BOSS plus une lettre (e.g., SQUE comparé à SQUEL et à SQUELE pour le mot SQUELETTE) en français. Leurs résultats indiquaient un avantage éloquent du BOSS : les sujets mettaient plus de temps à reconnaître que la syllabe et le BOSS plus une lettre formaient le début d’un mot. Les auteurs ont donc conclu que le BOSS, et le Principe de la Coda Maximale (i.e., Maximal Coda Principle, Taft & Radeau, 1995), était une unité de reconnaissance visuelle de mots plus efficace que la syllabe phonologique et le Principe d’Attaque Maximale. De manière semblable, Marcus Taft (2001 ; 2002 ; Taft, Álvarez & Carreiras, 2007) a montré en anglais un recours contrasté aux unités de lecture. L’utilisation du BOSS était fortement corrélée au niveau de compétences en lecture. En d’autres termes, seuls les meilleurs lecteurs recouraient au BOSS alors que les plus faibles lecteurs s’appuyaient sur la syllabe phonologique.

Pourtant, les recherches effectuées par Ferrand et New (2003) en français ou dernièrement par Stenneken, Conrad et Jacobs (2007) en allemand sur l’effet de longueur de syllabes en décision lexicale (mais aussi en production) ont particulièrement maintenu le recours à la syllabe phonologique dans les traitements visuels. Mais dans les deux études, l’effet de longueur de syllabes n’a été observé qu’avec les mots peu fréquents, jamais avec les mots fréquents. Enfin, le dernier point commun entre ces deux études menées dans deux langues différentes est l’utilisation conjointe des unités syllabiques aussi bien en décision lexicale qu’en production de mots.

Les résultats précédents sont compatibles, dans une certaine mesure, avec les données obtenues par Colé, Magnan et Grainger (1999) dans une tâche de détection visuelle de lettres à l’initiale de mots. Ce paradigme est une adaptation en modalité visuelle du paradigme de Mehler et al. (1981). En français, dans cette expérience, les résultats étaient assez évidents : avec les mots peu fréquents, les auteurs ont observé l’effet de compatibilité syllabique (i.e., les cibles CV étaient détectées plus rapidement à l’initiale de mots CV que CVC et inversement réciproque pour les cibles CVC) tandis qu’avec les mots fréquents, un effet de longueur de cible émergeait, à savoir que les cibles CV étaient détectées plus rapidement quelle que soit la structure initiale du mot (i.e., procédure purement orthographique). En résumé, pour traiter des mots peu fréquents, le lecteur aurait recours à un code phonologique syllabique alors qu’un code orthographique global serait requis pour traiter les mots fréquents. De manière contradictoire, Ferrand et al. (1996) ont réutilisé, auprès de Français, leur paradigme d’amorçage masqué dans une tâche de décision lexicale sans output articulatoire. Dans cette condition expérimentale, aucun effet de compatibilité syllabique entre l’amorce et la cible n’a émergé. Leur conclusion, en comparant les deux tâches, a été de stipuler que les syllabes ne seraient impliquées que lorsqu’un output phonologique est requis, c’est-à-dire en production de parole (pour un effet de compatibilité syllabique avec le même paradigme, mais en allongeant les temps de présentation de l’amorce, voir Gotor, Perea & Algarabel, 1995 ; pour des effets contraires, voir Brand et al., 2003).

Álvarez, Carreiras et Perea (2004) ont aussi montré des effets syllabiques de nature phonologique en espagnol dans des tâches de décision lexicale en utilisant un paradigme d’amorçage masqué. Dans une première expérience, les résultats ont mis en évidence des temps de réponse plus courts pour l’amorçage où le recouvrement est congruent et basé sur la syllabe phonologique et orthographique (e.g., ju.nas avec ju.nio) plutôt que lorsque le recouvrement est incongruent (e.g., jun.tu avec ju.nio). Dans une seconde expérience, que le recouvrement soit phonologique et orthographique (e.g., vi.rel avec vi.rus) ou simplement phonologique (e.g., bi.rel avec vi.rus), les effets d’amorçage syllabique sont présents. Enfin, dans une troisième expérience, un recouvrement phonologique (e.g., bi.rel avec vi.rus) engendre des effets d’amorçage syllabique plus brefs en comparaison de fi.rel avec vi.rus et de vir.ga avec vi.rus. L’ensemble de ces expériences a amené les auteurs à interpréter les résultats en faveur d’une intervention prépondérante et massive de la syllabe phonologique.

L’hypothèse d’un effet syllabique phonologique a également été mise en évidence dans une autre étude de Carreiras et al. (2005a). L’expérience conduite en amorçage phonologique de mots bisyllabiques en français par des pseudomots qui partageaient la première ou bien la seconde syllabe du mot a révélé un effet de recouvrement uniquement concernant la première syllabe, que ce soit en décision lexicale ou en prononciation. Les auteurs ont ainsi conclu que non seulement la syllabe est une unité fonctionnelle pertinente à l’écrit en français, mais aussi que pour les mots plurisyllabiques, les codes phonologiques étaient activés séquentiellement et non parallèlement.

Enfin, l’étude récente de Gross, Treiman et Inman (2000) en anglais est venue accréditer l’importance des caractéristiques d’organisation syllabique dans des pseudomots monosyllabiques (i.e., le respect des profils de sonorité dans une tâche de détection de lettres). Leur recherche a permis de montrer qu’une lettre était mieux et plus vite détectée quand la rime était cohérente avec les principes de sonorité énoncés par exemple, par Clements (1990), c’est-à-dire la présence d’une consonne plus sonore précédant une consonne moins sonore. (e.g., le t dans vult était plus facilement repéré que dans vuct). À partir de cette étude, les travaux en français de Bedoin et Dissard (2002) et de Fabre et Bedoin (2003) ont montré la même sensibilité aux propriétés d’organisation interne de la syllabe dans des mots bisyllabiques. En d’autres termes, les lecteurs français sont plus performants pour détecter des lettres-cibles en frontière syllabique uniquement lorsque les règles phonotactiques sont respectées et que le profil de sonorité est optimal (e.g., le t dans vulti était plus vite détecté que dans vucti). Ces constats en détection visuelle de lettres rejoignaient les conclusions tirées par Content et al. (2001a) quant au rôle de la sonorité, notamment de la sonorité de la consonne postvocalique (i.e., de meilleures performances étaient obtenues uniquement lorsque la consonne postvocalique était une consonne liquide). Ces données sont informatives, car elles rendent compte de l’importance de caractéristiques structurales fines de la langue dont le rôle n’avait été mis en évidence jusque-là qu’en perception de la parole alors qu’en réalité, leur intervention s’appliquerait aussi en modalité visuelle. Ces données pourraient ainsi expliquer les raisons de l’apparition d’un effet de la syllabe phonologique et/ou orthographique. Mais ces résultats, restreints, nécessitent davantage d’études.

Notes

6.

Une conjonction repose sur l’assignation d’une couleur à une lettre-cible présentée au sein d’un mot. Une conjonction illusoire est une erreur d’encodage perceptif de l’information visuelle. Compte tenu de la brièveté de la présentation, les sujets ont une perception biaisée de la couleur de la lettre-cible. Ils tendent à attribuer à la lettre-cible une couleur différente de celle vue réellement. L’objectif d’un tel paradigme est de contraindre le système perceptif à commettre des erreurs. L’étude de la nature de ces erreurs permet de déduire le type d’unité segmental privilégié lors de traitements visuels.