5. En guise de conclusion : acquisition du langage et cognition incarnée

Nous avons vu que l’accès à la symbolisation se jouait avec les premiers gestes de pointage, qui mettent en jeu conjointement le corps, le regard, et parfois la voix. Nous espérons avoir suffisamment souligné aussi l’implication de la motricité dans l’acquisition du langage –à travers la compréhension et la production de gestes acoustiques, mais aussi des expressions du visage, par exemple (Cabrejo-Parra, 2004). Penser la place de cette motricité dans les premières expressions langagières nous semble primordial, c'est pourquoi nous avons choisi de nous intéresser aux premières formes d'expression du mouvement. Peut-on, pour autant, suggérer l'existence d'un lien entre les premières expériences motrices et les premières évocations langagières qui s'y rapportent?

La réponse à cette question ne va pas de soi, nous l’avons vu, même si de nombreux travaux se sont attachés à lier langage et cognition spatiale. Les premiers résultats présentés en début de parcours sont d'autant plus difficiles à interpréter que la cognition spatiale y est souvent présentée comme un ensemble de structures retravaillant l’espace vécu et perçu sur la base de modèles géométriques, et que le rôle du corps et des mécanismes cognitifs généraux liés à nos interactions avec le monde environnant n’a pas toujours été pris en compte. Cependant l’ancrage corporel de la cognition fait actuellement l’objet d’un regain d’intérêt, qui ne s’assimile pas entièrement à un retour à Piaget.

L’examen piagétien de la construction progressive de la connaissance et des opérations intellectuelles chez l'enfant et l'adolescent concluait à l’existence d’un rapport étroit entre l'apprentissage du langage et l'habileté motrice, c’est-à-dire entre les mots et les premières interventions dans et sur le monde. Arrêtons nous un instant sur les conclusions de Piaget, que nous n’avons pour l’instant que sous-entendues, en présentant des travaux récents d’inspiration piagétienne (Mandler, 1996, 2006 ; McCune, 2006). Pour Piaget, l'enfant construit son langage dans l'action, et sur la base des abstractions pré conceptuelles qui en sont issues : les schèmes, qui organisent les expériences sensorielles et motrices à la manière d’un programme d’action. Ainsi, par exemple, les schèmes impliqués dans la saisie d’un objet ou dans l’emboîtement de deux contenants préexisteraient à la formulation d’énoncés contenant « prendre », « mettre » ou « dans ». Il y aurait, au stade sensori-moteur, des schèmes d’action réalisés directement sur les objets (toucher, taper), avant que l’enfant ne commence à agir à distance, en formulant des désignations, requêtes, commentaires, etc. Et les premiers mots que produisent les enfants se situaient, pour Piaget « à mi-chemin entre schèmes sensori-moteurs (…) et schèmes conceptuels. » (1962 : 221). Ces hypothèses se modulent désormais pour prendre en compte l’impact de la langue adressée à l’enfant. Ainsi par exemple, pour Lorraine McCune (2006), l’action est organisée dans la cognition du tout jeune enfant (au cours de la première année), et c’est l’interaction de l’expérience de la langue maternelle avec l’expérience cognitive, sociale et motrice qui permet de rendre compte de la signification des premiers mots. Cette première organisation serait cruciale tant au niveau du développement du langage (ontogenèse) que de l’évolution de la langue (phylogenèse) : Herr-Israel & McCune (2008) ont ainsi montré que les premiers verbes, qui sont aussi les meilleurs candidats à la grammaticalisation (« verbes modèles » de Ninio, 1999, comme COME, GO ou GET en anglais) tirent leur sens de l’expérience sensori-motrice et de l’encodage des événements moteurs.

Toutefois, alors que pour Piaget le langage se construisait sur une base conceptuelle préexistante (1962), McCune propose que la structure cognitive de la période sensori-motrice, pré langagière, ne soit pas conceptuelle, et que l’émergence des concepts accompagne et découle en partie de celle du langage. C'estsurtout ce primat piagétien de la pensée sur le langage qui a été très largement remis en cause depuis plus d’une décennie, avec la révélation d’une sensibilité précoce aux catégories de la langue maternelle (Choi et Bowerman, 1991) qui semble contredire l’idée d’une catégorisation pré-linguistique nécessaire à la mise en place du langage. Cependant, nous avons vu aussi que ces résultats ne nous dispensent pas entièrement de penser l’existence et le rôle de catégories comme celles de contenant/contenu, ou de support (Mandler 1992, 1996). La question de savoir si ces catégories sont à proprement parler pré-linguistiques, ou toujours déjà linguistiques quoique pas nécessairement grammaticalisées dans la langue que s’approprie l’enfant (Jisa, 2003), est au fond toute théorique, et il importe bien plutôt de s’interroger sur le type de catégorisation qui serait le plus adapté à notre compréhension des premiers développements langagiers. Ici encore, les catégories émergentes de Clark (2001) fournissent un exemple éclairant, qui nous encourage à faire table rase des catégories linguistiques existantes pour mieux interpréter les données. Clark les définit comme catégories cognitivement et conceptuellement saillantes pour l’enfant, mais dont la langue n’offre pas nécessairement d’expression qui recoupe ce découpage. Il se peut alors que l’enfant choisisse un marqueur (from, dans les exemples (1) à (6) ci-dessus, pages 4 et 5) qui lui semble le plus disponible et approprié pour exprimer la notion ainsi définie (Clark & Carpenter, 1989 : 2). La catégorie de source résulte donc d’une prise en compte concomitante des contraintes cognitives et conceptuelles, et des ressources offertes par la langue.

Cependant, qu'elles soient conceptuelles ou toujours déjà langagières, ces catégories nous ramènent toujours à l'expérience du monde, c’est-à-dire à la cognition sensori-motrice, ancrée dans nos interactions physiques avec l'environnement. C'est ce que l'on appelle la cognition incarnée18, ou enaction. La fiction piagétienne voulait qu'elle précède et conditionne le langage, peut-être faudrait-il plutôt dire que langage et cognition entrent ici en résonance?

Les neurosciences permettent de mieux comprendre ce lien entre parole, perception et pensée au sens large. D’après le modèle du système miroir, la reconnaissance des actions réalisées ou évoquées par autrui repose sur un mécanisme de résonance dans le système moteur de l’observateur (Gallese et al, 1996 ; Rizzolatti et al., 1996 ; Rizzolatti & Arbib, 1998). Ainsi, lors de l’observation d’une action, mais aussi lors de la production ou de la compréhension de mots d’action, la représentation motrice de cette action serait implicitement activée dans le répertoire moteur de l’observateur ou énonciateur, et serait ensuite appariée à l’action observée ou évoquée : le mécanisme de résonance ou de simulation serait donc le même pour le langage et pour la reconnaissance visuelle d’actions. Cela implique non seulement que les représentations issues de l’action aient un impact sur le langage, mais aussi qu’inversement, les constructions langagières puissent être impliquées dans notre compréhension de l’action (Rohlfing & Wrede, 2010) : la décomposition d’une action en séquences ponctuées de nominations successives, qui nous aide par exemple à apprendre des pas de danse, nous donnerait donc aussi une idée de la façon dont certaines composantes de la langue adressée à l’enfant puissent influencer les phénomènes attentionnels, et conduire par exemple l’enfant anglophone à prendre davantage en compte la manière de déplacement.

La linguistique cognitive apporte une caution à ce type d’hypothèses en proposant que la compréhension du sens des mots soit elle aussi incarnée (Gallese & Lakoff, 2005 ; Glenberg & Robertson, 2000). Pour Gallese et Lakoff (2005) les concepts, et particulièrement les concepts d’action, sont totalement « imbriqués » dans notre système sensori-moteur. Nous sommes ici bien au-delà d’un ancrage spatial de la langue et d’une théorie linguistique qui voudrait se faire le reflet du fonctionnement de celle-ci. Car si véritablement il y a un lien entre construction perceptive et construction du sens, celui-ci doit comprendre toutes les dimensions qualitatives, mais aussi culturelles de la perception, et nous éloigne ainsi des modèles topologico-géométriques. En effet, si la compréhension du sens des mots est incarnée, elle est par là-même « située », c’est-à-dire quelle implique conjointement un faisceau de facteurs sociaux et culturels. Les expériences de Coventry and Garrod (2004) en fournissent une illustration frappante : elles montrent que les locuteurs se basent sur leur expérience de situations similaires pour produire des jugements d’acceptabilité. Ainsi les auteurs ont-ils trouvé un facteur commun aux jugements portant sur l’usage des prépositions under ou below pour caractériser la position d’un personnage sous un parapluie : l’usage, plus marqué, de below, était toléré s’il s’agissait de souligner que le parapluie n’avait pas rempli sa fonction. Nous retrouvons ici une dimension fonctionnelle, praxéologique, qui ainsi que nous espérons l’avoir montré occupe une place centrale dans la construction du sens spatial.

D’une manière générale, les propositions énoncées ci-dessus mettent en avant le rôle primordial de la perception, avec ses réseaux de sensations, « affordances » (opportunités d’action offertes par un objet, qui seraient perçues en fonction de nos compétences motrices) et Gestalts (perceptions globales d’ensembles structurés), dans la constitution et l’usage du langage. Elles montrent que la perception ne serait pas seulement impliquée dans des processus de bas niveau, sans lien avec le langage, mais que ces mêmes processus de bas niveau seraient à l’œuvre jusque dans les constructions langagières les plus complexes. Les recherches récentes sur le lien entre perception et développement langagier proposent même que le sens émerge sur la base d’expériences sensori-motrices, expériences que le langage permettrait précisément de rejouer (cette « simulation cognitive » est parfois même intégrée à la notion de représentation, par exemple chez Karmiloff-Smith, 1982) selon des perspectives différentes (MacWhinney, 1999). Ce serait par exemple en s’intéressant à des activités qu’ils connaissent et pratiquent que les enfants apprendraient à associer des formes aux significations et scénarios connus (Huttenlocher, Smiley & Charney, 1983). Mais à partir du constat de ce que le jeune enfant apprend les mots d’action en contexte, c’est-à-dire qu’il entend puis produit ces mots en observant ou en exécutant lui-même l’action en question (que le mot soit produit avant, pendant ou immédiatement après l’action ; cf. Tomasello & Kruger, 1992), on peut distinguer au moins deux types d’explications liant perception et développement langagier.

La première consiste à ancrer le langage dans la perception. Pour les grammaires cognitives, perception visuelle et expérience sensori-motrice jouent un rôle central dans la compréhension de la structure syntaxico-sémantique des langues (Victorri, 2004), puisque celle-ci serait articulée sous forme de constructions comprises comme des Gestalts couplant forme et signification de manière indissociable (Goldberg, 1995). MacWhinney (1999) a même proposé que les grammaires (temps, aspects, deixis ou agentivité) aient pour seul but d’élaborer ces « représentations » selon des perspectives différentes. L’élaboration de ces différentes perspectives ou points de vue énonciatifs serait dès lors un fait crucial dans l’acquisition des formes lexicales et grammaticales par l’enfant (Bates & MacWhinney, 1989). Cependant, on peut aussi expliquer ce lien entre perception et langage, et plus spécifiquement entre action perçue et action évoquée, par une hypothèse plus restreinte, basée sur l’apprentissage associatif (Hebb ; 1949 ; Pulvermüller, 1999 ; 2005) considère par exemple que les systèmes du langage et de l’action développent des liens fonctionnels réciproques chaque fois que des actions sont associées à des processus linguistiques spécifiques. Ce sont ces associations qui, selon Pulvermüller, expliquent la mise en place de réseaux fonctionnels distribués grâce auxquels l’information peut être traitée rapidement :

‘« Au niveau cortical, le programme moteur nécessaire à la réalisation de l’action et la représentation neuronale du mot prononcé par les parents seraient donc simultanément activés, de sorte que les connexions synaptiques se renforcent entre les aires motrices et prémotrices et les aires classiques du langage. » (Boulenger, 2006)’

Quel que soit le type d'explication adopté (nous citons surtout la seconde possibilité pour insister sur le caractère interprétatif de la première famille d’explications), ces réflexions nous invitent à nous pencher sur les contextes de production, ainsi que sur les types d'interactions dans lesquelles on fait référence au mouvement. Ce sera l'objet de nos premières analyses (chapitre III), qui permettront aussi de s'interroger sur la place d'éléments liant expression langagière et motrice : onomatopées et mimes, par exemple.

En définitive, nous espérons que les réflexions esquissées ici montrent à quel point le langage est complexe, tant sur le plan de l’interaction entre le langage (qu’il soit compris comme activité ou comme faculté) et la diversité des langues, que du point de vue de ses différents niveaux, souvent considérés tour à tour par les linguistes : complexité du niveau phonologique (Marsico, Coupé, Pellegrino & Hombert, 2002) lexical ou morphosyntaxique (Parisse & Le Normand, 2006). C’est donc seulement en faisant jouer ensemble différents points de vues que l’on peut s’attaquer à la complexité de l’acquisition et du développement langagier (Sauvage, 2003). Si nous insistons sur cette exigence, c’est qu’elle constitue à notre sens non seulement un préalable méthodologique général, mais aussi et surtout le problème central qui est au cœur de la présente réflexion. Car c’est la tentative d’analyser les premières formes d’expression du mouvement dans toute leur richesse, en tenant compte de la diversité des langues mais aussi en prenant la mesure de la complexité linguistique dans laquelle l’enfant est d’emblée immergé, qui a fait apparaître les problèmes analysés ici. A cet égard, l’idée que le langage pourrait être abordé comme un système dynamique complexe nous semble particulièrement porteuse (Coupé, C., Marsico, E. & Pellegrino, F., A paraître), tout comme celle d’une « mosaïque du langage », au sein de laquelle on observe « la juxtaposition et l’intégration des parties dans un niveau supérieur de complexité. » (Robert & Chapouthier, 2006 : 154).

Notes
18.

Traduction de l’anglais « embodied », incarnée désigne ici la relation de dépendance entre le type d'expériences vécues et le fait d'avoir un corps doté de capacités sensori-motrices, elles-mêmes inscrites dans un contexte biologique, psychologique et culturel.