Mais quand et comment le langage est-il apparu ?

Les auteurs considèrent généralement que l’évolution des capacités mentales caractéristiques de l’espèce humaine soit corrélée à la naissance de l’Homo erectus en Afrique et en Asie, il y a quelques deux millions d’années (cf. Annexe 1 pour un détail de l’évolution de la lignée des Hominidés). Ainsi, un accroissement rapide de la taille du cerveau des individus se serait produit il y a environ un million et demi d’années, allant de 457 cm3 chez les Australopithèques à 1016 cm3 chez l’Homo erectus. La taille du cerveau aurait ensuite augmenté de façon plus graduelle chez l’Homo sapiens neanderthalensis (1552 cm3) et l’Homo sapiens sapiens (1355 cm3 ; Wood & Collard, 1999). Pour Suddendorf et Corballis (1997), de tels changements auraient été dictés par la nécessité de mettre en place des fonctions cognitives telles que la théorie de l’esprit et l’imagerie mentale. Ainsi, les individus, plus exposés aux prédateurs en raison des changements de végétation, auraient dû adapter leur comportement de manière appropriée, en établissant une « niche cognitive » reposant sur la coopération sociale et la planification d’actions nécessaires à la survie (Tooby & De Vore, 1987, cités par Corballis, 2005). Il est alors probable que cette période d’évolution du genre Homo se soit caractérisée par le passage d’une forme de protolangage à un langage plus élaboré pourvu d’une grammaire sophistiquée (Corballis, 2005 ; Jackendoff, 2002 ; Pinker, 2003).

Toutefois, les études de fossiles suggèrent que la parole ne soit pas apparue avant la naissance de l’Homo sapiens sapiens il y a approximativement 170 000 ans (Corballis, 2005 ; Ingman et al., 2000). Pour certains, un abaissement du larynx coordonné à une flexion de la base du crâne (i.e. raccourcissement de l’os sphénoïde) aurait joué un rôle capital dans l’avènement de cette faculté, en permettant d’élargir le répertoire phonétique à des voyelles telles que « i » ou « u » (Carstairs-Mccarthy, 1998 ; Hauser, 1996 ; Lieberman et al., 1969, 1972 ; Lieberman, 1984, 1998 ; Pinker, 1994). Se fondant sur la forme et la longueur probables des organes vocaux de divers spécimens humains anciens, Lieberman (1994) a notamment suggéré que la capacité d'Homo sapiens sapiens à produire la parole ne remonte pas au-delà de 50 000 ans, période à laquelle l’abaissement du larynx serait survenu (mais voir Laitman, 1986, pour des preuves rapportant la présence de cette adaptation chez l’Homo erectus). L’étude de l'appareil vocal de l'homme de Néanderthal indique en outre qu’il était probablement incapable de produire les sons des voyelles semblables à ceux qu'émettent les humains actuels (Crelin, 1987 ; Lieberman, 1998 ; Lieberman et al., 1972 ; Lieberman & Crelin, 1971 ; mais voir Gibson & Jessee, 1999, et Honda & Tiede, 1998, pour une discussion). L’idée d’un rôle primordial de l’abaissement du larynx dans l’apparition du langage articulé semble néanmoins difficilement conciliable avec les études récentes ayant rapporté l’existence de tels changements chez les animaux. Aussi les mammifères non humains, comme le singe tamarin et le chien, abaissent-ils leur larynx lors de la production de vocalisations, suggérant que cette modification soit un trait commun à tous les mammifères (Fitch, 2000 ; Hauser et al., 1993 ; pour une revue, voir Fitch, 2002). Un abaissement permanent du larynx a également été observé chez les koalas, les cerfs ou encore les lions (Fitch & Reby, 2001 ; Sonntag, 1921 cité dans Hauser & Fitch, 2003 ; Weissengruber et al., 2002). Par ailleurs, Holloway (1983) a repéré sur un crâne d'Homo habilis, soit avant que le larynx ait adopté une configuration optimale pour la parole, la présence embryonnaire de l'aire de Broca, l’une des zones cérébrales de production du langage, dans l’hémisphère gauche. Un appareil phonatoire capable d’un langage articulé a donc probablement existé presque un demi million d’années avant l’avènement de la parole. Il semble de fait peu probable que les modifications de cet appareil aient constitué une préadaptation nécessaire à l'émergence de la parole.Il ne serait en revanche pas surprenant qu’elles soient une exaptation, c'est-à-dire une adaptation ayant obéi à des pressions sélectives autres que pour favoriser la parole, mais dont le résultat, un larynx descendu, a tout de même facilité l'articulation des mots.

En dépit d’une littérature florissante, quoique loin d’être consensuelle, les études de fossiles sur les capacités phonétiques de nos ancêtres ne semblent donc que peu concluantes, soulignant les difficultés à « reconstruire le comportement vocal » de façon certaine (Fitch, 2000), et par là même à dater l’apparition du langage articulé. A cet égard, les études génétiques de comparaison des génomes des primates humains et non humains offrent une perspective intéressante.

Nous partageons 98.5 à 99 % de notre patrimoine génétique avec notre voisin le plus proche, le chimpanzé (Ebersberger, 2002 ; Fujiyama et al., 2002 ; King & Wilson, 1975). Soit 1 à 1.5 % seulement pour se différencier des autres primates principalement par la marche debout et bien sûr la parole. Si la culture doit jouer un certain rôle, elle n’explique pourtant pas l’émergence de cette remarquable faculté qui nous caractérise, en atteste l’incapacité des chimpanzés, élevés dans un environnement humain, à acquérir une quelconque compétence linguistique (Hayes & Nissen, 1971 ; Terrace et al., 1979). S’il n’existe probablement pas un gène unique du langage humain, des chercheurs ont identifié un premier candidat, le gène FOXP2 situé sur le chromosome 7, impliqué dans l’acquisition du langage articulé (Lai et al., 2001 ; Watkins et al., 2002 ; pour une revue, voir Marcus & Fischer, 2003). Au sein d’une même famille (KE), une mutation de ce gène chez des membres issus de trois générations successives a en effet résulté en un déficit développemental d’acquisition de la parole, caractérisé par des troubles sévères d’articulation (i.e. dyspraxie orofaciale, ou difficultés à coordonner les mouvements de la bouche et du visage ; Vargha-Khadem et al., 1995, 1998 ; Watkins et al., 2002) et des déficits purement grammaticaux (i.e. utilisation des temps verbaux, du genre et du nombre ; Gopnik, 1990 ; Gopnik & Crago, 1991) et linguistiques (e.g. décision lexicale, soit la capacité à distinguer un mot d’un pseudo-mot 1 , lecture de pseudo-mots, compréhension de phrases à structure syntaxique complexe, etc. ; Vargha-Khadem et al., 1995, 1998). Confortant l’idée d’un trouble du langage et non d’un trouble purement moteur chez les membres de cette famille, de récentes études ont démontré l’existence d’anomalies cérébrales (i.e. réduction du volume de substance grise) dans le gyrus frontal inférieur, incluant notamment l’aire de Broca, mais aussi dans le noyau caudé et le cervelet (Belton et al., 2003 ; Vargha-Khadem et al., 1998), ou encore un déficit d’activation de l’aire de Broca lors de tâches de génération silencieuse de verbes (Liégeois et al., 2003). La question qui s’est alors posée était de déterminer si ce gène était unique à l’homme – et dans ce cas, quand est-il apparu – ou s’il était partagé par d’autres espèces – l’apparition du langage articulé peut-elle alors s’expliquer par sa mutation chez l’homme ? En réponse à cette question, des études ont rapporté la présence d’un tel gène, dont la version est à 93.5 % identique à la nôtre, chez la souris mais aussi chez le singe (Enard et al., 2002), pourtant incapables de parler. Alors, le fait que FOXP2 existe chez des animaux non dotés de la parole réfute-t-il l’idée qu’il soit impliqué dans l’émergence de cette faculté chez l’homme ? La comparaison des versions de ce gène chez la souris, le chimpanzé et l’homme a au contraire permis de démontrer qu’en dépit de sa longue conservation chez les vertébrés, le gène FOXP2 humain aurait subi trois mutations par rapport à celui de la souris et deux par rapport à celui du singe (Enard et al., 2002 ; Zhang et al., 2002). Ces deux dernières mutations seraient survenues suite à la séparation des lignées des hominidés et des chimpanzés dans les 200 000 dernières années, la plus récente étant estimée à pas moins de 100 000 ans (Enard et al., 2002). Il aurait donc suffi de deux mutations sur un gène, permettant un meilleur contrôle du larynx et de la bouche, pour que le langage articulé vienne aux humains il y a environ 200 000 ans. Le gène FOXP2 ne peut toutefois être considéré comme le gène du langage humain, d’autres gènes impliqués dans cette fonction restant encore indéniablement à découvrir.

Si la parole a effectivement émergé il y a 200 000 ans, comment alors expliquer le délai d’un à deux millions d’années qui la sépare des premières adaptations observées chez les hominidés, telles que l’augmentation de la taille du cerveau ?

Une première hypothèse prévoit que le langage articulé soit apparu de manière soudaine (Bickerton, 1995 ; Crow, 2002). Cette « théorie du  big bang », souvent attribuée à Bickerton (1995), stipule que « le langage moderne, via l’émergence de la syntaxe, serait un évènement catastrophique survenu chez les premières générations d’Homo sapiens sapiens ». Crow (2002) propose même qu’une mutation génétique ait donné naissance à l’espèce sapiens, dotée de capacités cognitives originales telles que le langage moderne, l’asymétrie cérébrale ou encore la théorie de l’esprit. Selon Bickerton, ce scénario d’évolution permettrait de rendre compte du passage assez brusque du protolangage de l’enfant à un langage quasi adulte (au vocabulaire près). En outre, il pourrait expliquer la rapide évolution technique constatée autour de la transition Homo erectus/Homo sapiens sapiens. Ainsi, le protolangage maîtrisé par l’Homo erectus lui aurait permis de construire des outils plus performants (e.g. hache biface symétrique) que les outils rudimentaires d’Homo habilis. Les limites de ce protolangage (i.e. absence de syntaxe, impossibilité d’exprimer des relations spatio-temporelles) l’auraient toutefois empêché de faire progresser sa production d’outils pendant près d’un million d’années. L’apparition du langage au sens moderne du terme chez l’Homo sapiens sapiens aurait en revanche constitué un élément déclencheur permettant des avancées technologiques remarquables, comme la fabrication d’outils et d’armes perfectionnés et l’apparition de l’art (e.g. peinture de Lascaux datées de 30 000 ans). Un important problème de concordance entre la date d’apparition présumée de l’espèce sapiens (entre -300 000 et -140 000 ans) et la transition technique (-40 000 ans) vient toutefois nuancer cette proposition. Il semble ainsi plus probable que le langage articulé ait favorisé ces progrès techniques, mais que d’autres facteurs, environnementaux par exemple, aient pu les déclencher.

Parmi les tenants de l’hypothèse d’une apparition rapide du langage articulé, certains proposent que la parole ait émergé à partir des vocalisations des primates (Cheney & Seyfarth, 1988, 1990 ; Ghazanfar & Hauser, 1999 pour une revue ; Hauser, 1998). Ainsi, les modifications de la bouche et du pharynx, couplées à une augmentation du volume cérébral, auraient conduit, il y a environ 100 000 ans, au contrôle volontaire des productions vocales qui étaient jusque là plutôt des cris instinctifs. Cette hypothèse a été formulée suite à l’observation que les primates non humains, dans leur habitat naturel, produisent des cris d’alerte distincts pour signaler la présence de prédateurs différents (e.g. aigle, léopoard, serpent), ces sons étant en outre associés à des comportements de fuite différents (e.g. se cacher dans les buissons à la vue d’un aigle, grimper dans les arbres face à un léopard etc. ; Cheney & Seyfarth, 1988 ; Seyfarth et al., 1980). Des travaux ont également démontré que les singes produisent des vocalisations distinctes en fonction de leur appréciation ou non de la qualité de la nourriture (Cheney & Seyfarth, 1988 ; Hauser, 1998 ; Zuberbuhler et al., 1999). Les auteurs ont alors suggéré que les vocalisations des primates non humains contiennent un aspect référentiel (i.e. capacité à se référer à des objets ou évènements de l’environnement ; Hauser, 1998 ; Seyfarth et al., 1980), formant les précurseurs des mots que nous utilisons pour communiquer. Dans cette optique, de telles vocalisations auraient bien plus en commun avec le langage humain que n’importe quel signal non vocal. Cette hypothèse semble confortée par les études ayant rapporté, chez les primates non humains, un biais hémisphérique en faveur de l’hémisphère gauche, dominant du langage humain, lors de la perception de vocalisations produites par des congénères (Hauser & Andersson, 1994 ; Petersen et al., 1984 ; Poremba et al., 2004), un développement plus important de la scissure sylvienne gauche (Heilbroner & Holloway, 1988 ; LeMay et Geschwind, 1975), ou encore l’existence de déficits de discrimination de ces cris suite à des lésions du cortex auditif gauche (Heffner & Heffner, 1984). Toutefois, l’hypothèse d’une émergence du langage articulé à partir des vocalisations ne permet pas de rendre compte de l’aspect référentiel « au passé » et « au futur » caractérisant le langage humain. Le fait que les primates non humains ne puissent combiner leurs vocalisations pour former des propositions complexes semble également constituer une limite à ce postulat (Hauser, 1996).

MacNeilage (1998 ; MacNeilage & Davis, 2000, 2001) suppose quant à lui, dans sa théorie du « cadre et du contenu » (« Frame/Content »), que la syllabe consonne-voyelle, forme centrale de la parole humaine, trouverait sa préfiguration évolutive dans les cycles de fermeture (consonnes) et d’ouverture (voyelles) alternés de la bouche, associés aux processus d’ingestion et de mastication de nourriture. L’auteur appuie notamment sa proposition sur le fait que les changements cérébraux associés au développement de la parole chez l’homme se sont produits dans ou à proximité de l’aire de Broca, dont le précurseur contrôle les mouvements d’ingestion de nourriture chez les mammifères. Les mouvements mandibulaires cycliques avaient donc pour première fonction de se nourrir, mais ils auraient ensuite acquis une valeur communicative (i.e. communication visuo-faciale) sous forme de claquements de langue et des lèvres (« lip-smacking ») et d’autres bruits produits par le jeu des structures buccales antérieures (les dents notamment). Puis, ces alternances d’ouverture et de fermeture auraient été associées à des vocalisations, pour former un « cadre » ou « squelette » protosyllabique (e.g. bababa), caractéristique du babillage chez les nourrissons (Davis & MacNeilage, 1995). Enfin, un « contenu », constitué de consonnes et de voyelles, aurait été inséré dans des cadres successifs, donnant naissance à des formes de type « bodega ». MacNeilage (1998) émet également des hypothèses au niveau anatomique et propose une implication notable des régions prémotrices latérales et médianes. Le cortex prémoteur latéral, incluant la région de Broca, serait crucial pour l’apprentissage du langage en permettant la répétition. Le cortex prémoteur médian (aire motrice supplémentaire, ou AMS, et cortex cingulaire) présiderait à la production du langage guidée par des stimuli internes (i.e. motivationnels). L’un des points forts de la proposition de MacNeilage réside dans son adéquation aux données issues de la neuropsychologie. Ainsi, le mutisme des patients porteurs d’une lésion de l’AMS, mais dont les capacités de répétition sont préservées, s’oppose aux déficits de répétition des patients souffrants d’une aphasie de Broca (Geschwind, 1968 ; Passingham, 1987). Son modèle présente néanmoins des points de faiblesse. D’abord, l’articulation ne constitue pas le langage (Arbib, 2004), le scénario de MacNeilage n’apportant aucun élément sur l’évolution de la parole en tant que telle, et non comme la capacité à articuler des syllabes. En outre, l’auteur ne formule aucune hypothèse sur la manière dont les sons ont été associés à un sens pour former des mots. Enfin, ce modèle n’explique pas l’émergence de la capacité d’abstraction : les vocalisations diffèrent en effet du langage tel qu’il est présent chez l’homme moderne en ce qu’elles véhiculent uniquement des émotions et états motivationnels liés à l’ici et maintenant, et ne semblent donc pas intrinsèquement symboliques.

A ces théories d’apparition soudaine du langage s’oppose une deuxième hypothèse, celle d’une origine gestuelle, selon laquelle le langage aurait évolué de manière graduelle et aurait été initialement basé sur les gestes manuels (Arbib, 2002, 2005 ; Armstrong et al., 1995 ; Armstrong, 1999 ; Corballis, 1992, 1999, 2002, 2003, 2005 ; Hewes, 1973 ; McNeill, 1992 ; Rizzolatti & Arbib, 1998). L’utilisation des gestes manuels plutôt que des vocalisations comme moyen de communication aurait été dictée par un meilleur contrôle cortical de la motricité manuelle, mais aussi par le caractère référentiel plus ouvert et la flexibilité des gestes manuels, en opposition à la rigidité du système de communication vocal. Dans ce sens, la parole, et non le langage en tant que tel, caractériserait et définirait la condition humaine (Corballis, 2005). Selon cette hypothèse, le passage à la bipédie aurait eu pour première conséquence de libérer les membres antérieurs et de les rendre disponibles pour la communication gestuelle. Pour Corballis (2002), l’un des avantages d’une communication manuelle plutôt que vocale aurait été de mieux se préserver d’éventuels prédateurs, d’alerter en silence les congénères de la présence d’un de ces prédateurs ou encore de traquer plus facilement les proies. Dans un second temps, le langage oral se serait à son tour développé, rendant ainsi les mains libres pour d'autres usages, tels que la fabrication et l’utilisation d’outils dont l’apparition est estimée à 2.5 millions d’années (Semaw et al., 1997). Les gestes auraient toutefois continué d’accompagner la parole, comme en atteste leur fréquente production lors de nos échanges verbaux quotidiens (Goldin-Meadow, 1999 ; Kendon, 1980). Confortant l’existence de liens étroits entre gestes et langage, la préférence pour la main droite, présente chez la majorité de la population (90 %), est associée à un contrôle hémisphérique gauche, dominant du langage (Corballis, 2003 ; Hewes, 1973 ; Knecht et al., 2000 ; Steklis & Harnad, 1976). Knecht et al. (2000) ont notamment démontré que l’incidence de l’asymétrie cérébrale gauche lors de la génération de mots est corrélée au degré de latéralité manuelle en faveur de la main droite. Les recherches ont par ailleurs révélé une préférence de la main droite dans la production des gestes communicatifs chez les sujets droitiers (Kimura, 1973), suggérant que le langage parlé et sa gestuelle soient contrôlés par un système commun latéralisé à gauche. Cette préférence manuelle est également constatée chez les adultes sourds pratiquant la langue des signes et chez les enfants (Bellugi, 1991 ; Blake et al., 1994). Les études menées chez les primates non humains ont de surcroît rapporté un biais en faveur du membre supérieur droit lors de la communication gestuelle (Hopkins & de Waal, 1995 ; Hopkins & Leavens, 1998 ; Hopkins & Cantero, 2003 ; Vauclair, 2004 ; pour une revue, voir Hopkins & Cantalupo, 2005). Aussi les chimpanzés utilisent-ils préférentiellement leur patte droite pour quémander de la nourriture à l’expérimentateur, cet avantage étant renforcé lors de la production simultanée de vocalisations. Les gestes s’accompagnent également d’alternances du regard entre l’expérimentateur et la nourriture, indiquant qu’ils soient intentionnels et possèdent un caractère référentiel (Leavens et al., 1996 ; Leavens & Hopkins, 1998). Les auteurs (Hopkins & Leavens, 1998) n’ont enfin rapporté aucune corrélation entre les préférences manuelles lors de la réalisation de tâches motrices et lors de ces échanges, suggérant un avantage de la patte droite, et donc de l’hémisphère gauche, dans la fonction de communication, qui ne résulte pas simplement d’une spécialisation manuelle préexistante pour des fonctions à visée non communicative. Une asymétrie anatomique en faveur de l’hémisphère gauche a enfin été mise en évidence dans une zone homologue de l’aire de Broca chez les grands singes (Cantalupo & Hopkins, 2001) ; les auteurs ont alors suggéré que cette asymétrie soit associée à l’utilisation préférentielle de la patte droite lors de la production de gestes communicatifs, ayant probablement donné naissance à la dominance hémisphérique gauche pour le langage humain. Confortant cette hypothèse, Taglialatela et al. (2006) ont récemment mis en évidence, en IRM, un développement plus important d’une aire homologue de l’aire de Broca dans le gyrus frontal inférieur gauche chez les chimpanzés qui utilisaient leur membre supérieur droit pour communiquer. L’ensemble de ces données suggère donc une prédisposition biologique en faveur de l’hémisphère gauche pour la communication gestuelle chez les primates non humains et humains, précurseur probable du langage et de la préférence manuelle droite.

Corroborant encore l’hypothèse d’un langage gestuel ayant précédé le langage oral, les travaux menés sur la langue des signes utilisée par les malentendants ont démontré que ce système de communication était aussi sophistiqué sur le plan grammatical que le langage oral (Emmorey, 2002 ; Neidle et al., 2000). McNeill (1992) cite quant à lui le cas d’un patient ayant perdu le sens de la proprioception suite à une infection virale, qui, bien qu’il ait du réapprendre à réaliser les mouvements même les plus simples, continuait de produire des gestes manuels de manière spontanée lorsqu’il parlait. Ces comportements moteurs n’étaient en outre pas abolis lorsque les chercheurs l’empêchaient de voir ses propres mains ou lorsqu’il était conscient que celles-ci n’étaient pas accessibles visuellement à son interlocuteur. Pour McNeill (1992), « les mains seraient donc précisément liées à la parole », « les gestes ne constituant pas un fossile comportemental qui aurait été supplanté par le langage oral, mais un élément indispensable au langage ». Il considère que la parole n’aurait pu se développer sans les gestes et réciproquement. Au contraire, MacNeilage (1998 ; MacNeilage & Davis, 2001), s’il postule également une origine motrice du langage en termes de mouvements mandibulaires, rejette l’hypothèse d’une origine gestuelle, arguant que motricité manuelle et langage soient deux systèmes qui auraient évolué en parallèle mais sans y voir de relation particulière entre les deux. Selon lui, la fonction de la motricité manuelle dans l’évolution serait limitée à la fabrication et l’utilisation d’outils, et les gestes auraient toujours été ce qu’ils sont aujourd’hui : un support ponctuant de l’articulatoire. En outre, il propose que ce transfert du gestuel au vocal sous-estimerait l’importance du contrôle volontaire de l’appareil phonatoire qui nous distingue des autres primates.

Comme nous l’avons décrit, la question de l’origine du langage humain est loin d’être résolue, les théories proposées pour rendre compte de son évolution étant diverses. S’il semble établi que le langage articulé a émergé récemment chez l’Homo sapiens sapiens, son évolution graduelle à partir des gestes manuels ou plus rapide à partir des vocalisations reste encore sujette à discussion. Dans ce travail destiné à révéler la dynamique des liens unissant le traitement des mots d’action et l’action elle-même, nous adopterons le point de vue selon lequel un langage manuel a probablement précédé le langage oral. Dans la suite, après avoir présenté les arguments en faveur de cette hypothèse, nous en détaillerons plus précisément les fondements en décrivant le scénario d’évolution du langage à partir des gestes manuels proposé par Corballis (1999, 2002, 2003).

Notes
1.

Un pseudo-mot est une chaîne de caractères respectant les règles phonotactiques de la langue mais ne possédant pas de représentation lexico-sémantique en mémoire. Il est généralement construit en changeant une ou plusieurs lettres d’un mot (e.g. cateau).