Représenter fidèlement plutôt que condenser

Dans l’article de 1976, de Reffye se livre à une critique en règle des solutions déjà adoptées par différents auteurs, mais sans les citer nommément ¹⁵⁰³ . Tel auteur croit ainsi pouvoir tirer directement parti de la formule précédente en s’imaginant qu’il est possible de connaître a priori le nombre de fruits par arbre : or, le fait est que cette détermination est « pratiquement irréalisable ». Autrement dit, c’est peut-être une solution théorique élégante mais qui ne donne pas prise sur le phénomène une fois que l’on se trouve sur le terrain. Elle ne peut en rien aider l’agronome qui veut se constituer un outil opérationnel. Pour évaluer la « capacité de production » de l’arbre, il faut se pencher sur ses détails morphologiques : ses ramifications, la morphologie de ses rameaux, son type de croissance, etc. Mais il faut de plus avoir un outil pour considérer ces détails tous ensemble, sinon on ne saurait décompter le nombre de fruits par arbre. Ce qu’il faut, c’est considérer l’arbre dans sa morphologie tout entière. Il faut donc nécessairement prendre en compte « à la fois toutes les caractéristiques d’architecture et de croissance de l’arbre » ¹⁵⁰⁴ . Dans ce cas de figure, le nombre de facteurs croisés et non contrôlés étant très grand, ce pourrait donc être un travail adapté aux méthodes de la biométrie.

Effectivement, une deuxième solution évoquée était davantage inspirée de la biométrie. Il s’agissait d’une analyse multivariée prenant en compte un nombre considérable de caractères architecturaux supposés intervenir dans le rendement : mesures de la circonférence de la tige, mesures de la feuille, des fruits et des grains. Le résultat de cette étude conduit, selon de Reffye, à un grand tableau de corrélations à partir duquel il est cependant assez vain d’espérer tirer l’information nécessaire. En effet, « une telle méthode nécessite de puissants moyens de calcul pour une efficacité le plus souvent douteuse » ¹⁵⁰⁵ . Même si c’est probablement son intention, sachant sa prédilection pour une attitude franchement modéliste, de Reffye n’attaque pas frontalement le recours à l’analyse multivariée en tant que telle : comme nous l’avons vu, ce serait mal venu dans la revue de l’IFCC qui publie régulièrement des travaux fondés sur de telles analyses. Son argument se contente de faire valoir une disproportion générale entre les moyens techniques engagés et l’espérance de succès afférente. Cet argument est intéressant parce qu’assez nouveau dans ce contexte et finalement très paradoxal. La critique qu’il fait ici de l’analyse multivariée a significativement évolué par rapport à celle avec laquelle il commençait son premier article de 1974 sur la « recherche de l’optimum » du rendement. Cette première critique consistait simplement à reprocher à l’analyse statistique son caractère trop descriptif ainsi que son incapacité à décider d’un optimum de fonctionnement pour une variable supposée dépendre des autres. En 1976, la critique est devenue autre parce que de Reffye a renoncé à rechercher directement l’optimum du rendement. Il faut nous y arrêter un moment.

La modélisation statistique est en effet attaquée par un flanc nouveau où elle ne pouvait s’imaginer en danger. De par son recours systématique à l’analyse multivariée, facilitée par l’utilisation désormais inconsidérée des calculateurs numériques programmables, la biométrie paraît en effet coupable d’être devenue trop théorique car trop éloignée des considérations d’efficacité de l’agronome. Ce qui est un comble si l’on sait qu’historiquement les outils qu’elle a forgés proviennent de considérations très empiriques et pragmatiques ! Voilà donc où se tient le paradoxe. Qu’est-ce qui légitime selon de Reffye que l’on puisse évoquer ici une dérive spéculative de la biométrie ? Rien d’autre que le flou qui règne au sujet de l’issue d’une telle analyse : « une efficacité le plus souvent douteuse. » Le cœur du problème tient au fait que l’analyse multivariée, en ne faisant pas de choix a priori, pose des questions trop ouvertes à la nature : ainsi récolte-t-elle le pire comme le meilleur mais sans savoir comment l’organiser en une connaissance pragmatique et directement opératoire ¹⁵⁰⁶ . C’est en ce sens précis que l’empirisme de la biométrie confine paradoxalement à la spéculation, en particulier en agronomie ¹⁵⁰⁷ . La modélisation, de son côté, tout en paraissant plus théorique à certains égards parce que plus chargée d’a priori,pose ce faisant des questions fermées à la nature. C’est en ce sens qu’elle peut être plus opérationnelle. Par exemple et successivement : quel est ton paramètre de loi de probabilité binomiale si je suppose a priori que c’est bien cette loi que tu suis ? Réponse : une valeur précise dans un ensemble défini de valeurs. Ensuite (test de signification) : est-ce que la réponse que tu me donnes est significative ? Réponse : oui ou non. C’est la précision de la réponse et son caractère tranché, indépendamment du recours ou non à des lois de probabilité, qui donne une prise sur le terrain. Ces arguments généraux sont jugés d’autant plus décisifs par de Reffye que les emplois purement inductivistes de l’analyse multivariée ne donnent en effet aucun résultat utilisable pour le problème précis qui le préoccupe en ce début des années 1970. Son option épistémologique initiale (rechercher des « lois de la nature » mathématiquement exprimables) se trouve ainsi confortée par sa pratique de recherche. Ces lois, ce sont ses modèles.

Enfin, de Reffye voit encore un autre inconvénient dans le fait de recourir à l’analyse multivariée pour les questions de rendement en agronomie. Nous le verrons, cette critique est essentielle car c’est la prise en compte de cette limitation des approches multivariées qui va en dernière instance justifier la décision du passage à la simulation, c’est-à-dire du passage de l’analyse des données à la synthèse d’objets, dans le cas particulier de la croissance et de l’architecture des caféiers. Cette critique tient en une phrase simple : l’analyse multivariée est coupable de négliger un certain nombre de données. Ce qui là aussi peut sembler très paradoxal ! Même si l’analyse multivariée semble ne négliger a priori aucune donnée, les mesures qu’elle considère ne correspondent toujours chacune qu’à un instant de mesure particulier alors que « l’arbre est en continuelle évolution » ¹⁵⁰⁸ . Les arbres sont donc comparés directement en faisant abstraction de leur histoire particulière. Ainsi la différence entre certains types de croissance n’apparaît pas. Mais la critique ne porte pas seulement sur le mauvais traitement de la temporalité des phénomènes par les analyses statistiques habituelles. Cela est essentiel à percevoir. Le texte de de Reffye ne s’appesantit pas sur cette question de la temporalité, qui lui paraît évidente, même si elle peut sembler à un lecteur pressé la raison essentielle pour laquelle on opte en général pour une approche dynamique et donc pour une simulation. Il se trouve en fait que l’argument de la temporalité n’est pas le seul. On y trouve aussi, comme nous allons le voir, une critique du traitement de la spatialité. Autant dire que ces critiques additionnées pourraient s’annuler. Puisque lorsque l’on dit d’une méthode d’analyse qu’elle ne rend compte ni de la temporalité, ni de la spatialité des phénomènes, c’est comme si l’on disait qu’elle ne rend compte de rien du tout ! Une critique qui porte sur la prise en compte à la fois de la temporalité et de la spatialité dans les solutions antérieures est-elle encore véritablement une critique de poids ? En quoi est-elle décisive pour de Reffye ?

Ce qui fait le caractère significatif pour lui de cette double critique, ce n’est pas le fait que les deux critiques s’additionnent mais plutôt le fait que l’une est enchâssée en l’autre : la critique qui consiste à dire que la spatialité a été négligée est enchâssée dans celle qui porte sur la temporalité. L’une ne peut aller sans l’autre :
‘« En effet, les mesures faites ne sont valables qu’à l’instant où on les effectue, car l’arbre est en continuelle évolution. Ces ensembles de mesures sont le plus souvent traités selon des méthodes statistiques multivariables afin d’étudier la variabilité du matériel. Mais l’analyse multivariable ne permet pas de visualiser directement l’architecture, car celle-ci est concentrée en un point. Les différences entre deux arbres ne peuvent s’exprimer que par une distance entre deux points, d’où une perte considérable d’information. Les résultats acquis sont donc toujours assez limités. » ¹⁵⁰⁹ ’
Pour avoir lui-même pratiqué ce genre d’analyse (analyse en composante principale) dans son premier travail de 1974, de Reffye en perçoit clairement les limites pour son problème propre. Dans l’analyse multivariée, l’arbre est en effet représenté à un instant donné par un point au milieu d’un nuage d’autres points qui représentent l’état des autres arbres. C’est ce nuage de points qui est étudié de façon analytique, notamment par des analyses de variance qui font intervenir des minimisations de distances dans cet espace multidimensionnel ¹⁵¹⁰ . Selon de Reffye, c’est cette distance ponctuelle, tout à la fois instantanée et construite dans un espace abstrait qui nous fait perdre de l’information. On y compare des choses qui ne sont pas comparables. Il faudrait au contraire qu’un temps dynamisé prenne en compte un espace hétérogénéisé. La distance abstraite fait violence à la complexité du phénomène spatio-temporel en l’occultant.

Cet argument de la perte d’information est de poids. Il peut toucher juste car il permet de montrer que, dans certains cas, l’outil classique de la biométrie contribue à lui faire escamoter ce qu’elle considère pourtant comme son objet d’étude de prédilection : la variabilité. La biométrie ne serait pas aussi circonspecte qu’on le croit d’ordinaire. Dans certains cas, rester sensible à la variabilité des phénomènes vivants supposerait de renoncer à l’analyse multivariée et à son pouvoir d’abstraction et de condensation. Il faudrait donc représenter plus visuellement et moins abstraitement l’architecture et la croissance de l’arbre. C’est alors que la « visualisation » est ici directement proposée comme alternative à la « ponctualisation », c’est-à-dire à la condensation abstractive qui résulte de l’analyse statistique.

Notes

1503.

À en croire sa bibliographie ([Reffye (de), Ph. et Snoeck, J., 1976], p. 31), il s’agit en fait de chercheurs indiens fidèles à la tradition biométrique anglo-saxonne : N. A. Awatramani et H. Subramanya pour la première solution critiquée, C. S. Srinivasan pour la deuxième solution. Ces trois auteurs ont publié leurs analyses dans la revue indienne Journal of Coffee Research (Balehonnur), respectivement en 1973 et 1972.

1504.

[Reffye (de), Ph. et Snoeck, J., 1976], p. 11.

1505.

[Reffye (de), Ph. et Snoeck, J., 1976], p. 11.

1506.

On pourrait observer de semblables retournements critiques dans d’autres travaux de la même époque en sciences de la vie. Nous aurons ainsi l’occasion de voir que les milieux de la foresterie américaine commencent eux aussi à rejeter ce primat donné au calcul massif, rassurant par son apparente objectivité et facilité, mais souvent insignifiant à bien des égards. À partir des années 1970, ils vont eux aussi se tourner vers la modélisation. Voir sur ce point notre entretien avec François Houllier [Houllier, F. et Varenne, F., 2000].

1507.

L’école de Benzécri restera influente très longtemps dans les milieux des sciences humaines et sociales dans la mesure où ces disciplines ne se poseront pas tout de suite, ni dans les mêmes termes, la question que se posa en revanche assez tôt l’agronomie, à savoir : comment est-il possible de rendre opérationnelles nos spéculations ? Elle sera donc vite évincée dans les sciences de la vie orientées vers l’opérationnel, sauf dans la pure analyse de données appliquées à la médecine où elle restera par la suite cantonnée, car le primat de la physiologie règnera encore longtemps dans la biomédecine. Il y a donc bien une façon spéculative de recourir à la biométrie et aux statistiques.

1508.

[Reffye (de), Ph. et Snoeck, J., 1976], p. 11.

1509.

[Reffye (de), Ph. et Snoeck, J., 1976], p. 11.

1510.

Analyser et minimiser la variance revient notamment à découvrir les axes d’inertie de ce nuage de points et à exprimer ensuite les données dans ce nouveau référentiel. Voir [Lagarde (de), J., 1995], pp. 21-24.