Modélisation probabiliste de l’activité de croissance des méristèmes

Dans l’approche topologique, le temps et l’espace sont discrétisés. Il faut donc se donner une unité de mesure ayant une signification biologique repérable sur le terrain. Il s’agira de l’entre-nœud 1761 . Ainsi, « la croissance d’un axe se fait par entre-nœuds successifs » 1762 . De Reffye reprend alors à sa thèse de 1975 la supposition selon laquelle une loi de probabilité serait un formalisme élémentaire idéal car elle permettrait de capter à la fois la variabilité inter-clonale et la variabilité intra-clonale du point de vue architectural :

‘« Si on prend par exemple le cas du caféier, et que l’on observe l’architecture d’une ligne de plantation clonale, on saisira à la fois la ressemblance entre deux arbres du même clone en même temps que la différence. Leur ressemblance est due évidemment à leur identité génétique et leur différence aux nombreuses perturbations locales à caractère aléatoire. Si l’on compare ce clone au clone de la ligne suivante, on constate que leur différence architecturale est essentiellement génétique. La conséquence logique de cette observation est d’attribuer une probabilité de fonctionnement identique aux bourgeons d’un même clone et une probabilité différente à ceux du clone voisin. Ce concept [de probabilité] rend compte des ressemblances et des différences inter et intra clonales. » 1763

Une grande partie du premier chapitre de la thèse de 1979 consiste donc à trouver une formulation mathématique qui permette de remonter des mesures statistiques de terrain aux processus stochastiques qui donnent naissance aux premiers entre-nœuds d’une plante. Pour ce faire, le matériel choisi au départ sera constitué de jeunes boutures non encore affectées par la mortalité méristématique. Cela permet de formuler et de calibrer la probabilité de l’activité de croissance des bourgeons, c’est-à-dire la probabilité pour un méristème de faire ou non un entre-nœud. En faisant l’approximation de la somme d’une série avec une intégrale, de Reffye peut en effet procéder à un calcul d’inversion permettant de passer de la distribution observée des tailles des tiges à la loi probabiliste d’activité des méristèmes 1764 . Puisque la distribution en probabilité de la taille des tiges résulte de la réitération de l’activité du méristème, elle se fait en conséquence selon une loi binomiale simple dont l’un des paramètres est la probabilité d’activité elle-même. Avec la formule du binôme valant pour cette loi binomiale, on peut donc écrire explicitement et de manière analytique la probabilité de tirer une tige de taille donnée en fonction de cette taille et de la probabilité d’activité du méristème 1765 .

Afin de vérifier la formulation de cette loi probabiliste et ses paramètres calibrés, de Reffye écrit un premier sous-programme transitoire en HPL. Ce programme utilise la loi probabiliste de manière synthétique et il « simule » 1766 ainsi la croissance d’une population de bourgeons à partir de la valeur de la probabilité calibrée sur les données. Ce sous-programme recourt aux méthodes de tirage de nombres aléatoires de type Monte-Carlo dont nous savons que de Reffye les utilise et les maîtrise depuis 1974. À ce sujet, de Reffye, affirme à plusieurs reprises qu’il s’inspire des méthodes issues de la recherche opérationnelle (toujours notamment à partir du livre de Naylor et Balintfy, 1966) et que ces méthodes sont encore peu usitées en modélisation appliquée à la biologie 1767 . Il sait donc que c’est là que figure, entre autres, une des nouveautés de sa proposition par rapport aux autres pratiques de modélisation en biologie.

Il est à noter que de Reffye ne demeure pas totalement satisfait de ce plaquage des méthodes de modélisation probabiliste. Il reste même encore assez embarrassé de ne s’être livré à ces échelles-là qu’à ce qui pourrait n’être conçu par d’autres que comme une modélisation descriptive. C’est pourquoi il tâchera, en conclusion de sa thèse, de justifier sur un plan général l’introduction de lois probabilistes en biologie au moyen d’un argument typiquement mécaniste qui, pour nous, s’avère très révélateur. Il ne le reproduira plus par la suite mais il nous en dit long sur l’esprit dans lequel il s’autorise alors à recourir aux probabilités :

‘« Dans la plupart des systèmes physiques, la variabilité des paramètres relève directement de l’imprécision sur les mesures. Il n’en est pas de même dans les systèmes biologiques où à toute variable on est souvent forcé d’associer une loi de distribution expérimentale, qu’on résume assez grossièrement par ses deux premiers moments, moyenne et variance. Cette différence peut sans doute s’expliquer par le fait que l’information circule lentement dans un être biologique sous forme de molécules labiles et donc doublement vulnérables. Ce qui fait que le processus biologique dépend dans son évolution de la probabilité de la transmission de l’information. » 1768

Dans ce passage, de Reffye fait d’abord allusion aux méthodes d’analyse de variance de la biométrie pour les opposer aux origines du calcul des incertitudes dans les sciences exactes (notamment en astronomie, comme on peut le supposer). Pour lui, la légitimité de la biométrie vient du fait qu’il y a une sorte d’émergence d’un hasard, à une certaine échelle, dans certains phénomènes biologiques élémentaires pour des raisons qu’il conçoit de manière purement mécaniste : cette sorte de hasard « objectif » émergent serait due à la différence des vitesses de certaines molécules informatives. Or, nous allons voir que c’est parce qu’il peut se représenter préalablement un tel scénario mécaniste d’émergence du hasard dans l’activité de croissance qu’il s’autorise finalement à employer les processus stochastiques, en rompant ce faisant avec l’approche purement analytique ou informationnelle de la biométrie. Il poursuit en effet immédiatement :

‘« La conséquence logique d’un tel état de fait est de remonter quand cela est possible aux processus stochastiques qui engendrent la loi de distribution expérimentale. Ce faisant, on est à même de mesurer le fonctionnement du système, et de le résoudre numériquement, ce qui peut permettre de remonter aux causes. » 1769

Son interprétation de la biométrie par l’ignorance des causes montre bien qu’il se situe encore dans une vision passablement mécaniste de la biologie, où le modèle d’une science accomplie reste celui de la mécanique et de la physique statistique. Davantage, ce passage nous permet de comprendre que de Reffye attribue à sa simulation le pouvoir de désigner plus proprement les « causes » des architecture rencontrées. Son approche de 1979 reste inspirée par un désir de déceler des causalités ou des lois théoriques à valeur universelle. Même s’il donne aux probabilités une interprétation plus objectiviste que les biométriciens, sa conception du modèle formel s’oppose à celle des positivistes ou fictionnalistes les plus radicaux. Il est remarquable que ce soit dans ce contexte interprétatif qu’il s’autorise à recourir aux processus stochastiques en tant qu’instruments de synthèse et non plus d’analyse et qu’il contribue à développer une forme nouvelle de modélisation.

Si l’on poursuit justement notre analyse de la construction progressive de son modèle, de Reffye nous livre l’organigramme du sous-programme simulant l’activité du méristème. Il le commente de la façon suivante :

‘« L’organigramme suivant peut simuler selon la méthode de Monte-Carlo une population de T tiges au hasard, qui auront la même liaison moyenne-variance V = f(x). Il faut toutefois un grand nombre de tiges simulées pour observer une bonne concordance entre les simulations et les observations – en effet les simulations convergent vers la relation V = f(x) suivant la loi des grands nombres. » 1770

Outre le fait que le sous-modèle testé ne nous est présenté que comme un équivalent statistique, nous comprenons également que ce sous-programme transitoire est utilisé pour une vérification empirique intermédiaire de la validité de la loi probabiliste particulière valant pour chaque méristème. Il nous est fondamental de comprendre ici que, comme dans les travaux antérieurs sur la pollinisation du cacaoyer, la validation du modèle informatique fractionné et intégratif commence donc déjà à ce niveau là. Ainsi, la validation n’est pas essentiellement ou pas seulement exercée à la fin, c’est-à-dire à l’issue du processus d’intégration des différents sous-modèles. Elle commence déjà au niveau des sous-modèles. La validation n’est pas ou pas seulement informationnelle et globale comme c’est en revanche le cas dans les modèles statistiques compris à un niveau purement phénoménologique. Elle intègre différentes étapes et différents niveaux de validation à des échelles qui, biologiquement, sont diversement signifiantes. Le processus de validation est donc lui-même intriqué et complexe. De par son caractère pluri-échelle, il contribue déjà à manifester l’idée que le modèle informatique est ici davantage conçu comme une réplication du phénomène réel, dans la diversité des expériences que l’on en peut avoir, que comme une simple abstraction informationnelle valant à un seul niveau et selon une seule perspective pragmatique ou opérationnelle précise.

Par la suite, le travail de de Reffye consiste, assez classiquement, à complexifier cette loi probabiliste de l’activité de croissance élémentaire du méristème pour que sa modélisation ne vaille pas uniquement pour les très jeunes plantes et les boutures. Il s’agit notamment de prendre en compte la non stationnarité de cette activité de croissance en fonction de l’ordre de ramification. Souvenons-nous ici que c’est précisément la non prise en compte de cette source de variabilité par les modèles purement géométriques de Hisao Honda qui avait conduit Jack B. Fisher à se détourner finalement des simulations graphiques sur ordinateur. Or, de ce point de vue là, de Reffye va une fois de plus à l’école de la recherche opérationnelle. De façon décisive, il s’installe résolument dans le formalisme des processus stochastiques. Il lui est alors possible de prendre en compte cette non stationnarité, qu’il interprète pour sa part comme un simple amortissement de la probabilité de croissance en fonction de l’ordre du méristème sur l’axe considéré : la variabilité des paramètres de la loi de probabilité est ainsi prise en charge et formalisée par le concept bien défini de « processus stochastique » 1771 . Rappelons en substance qu’un processus stochastique est conçu d’emblée comme une cascade d’événements gérés eux-mêmes par des lois de probabilités éventuellement différentes. Ces lois de probabilités dépendent donc de leur situation dans l’arborescence des événements aléatoires auxquels elles ont elles-mêmes donné lieu. Dès lors, la taille de la tige résultante ne peut plus simplement être calculée comme la somme de N variables aléatoires indépendantes, contrairement au cas initial : mais on peut tout de même formaliser une dépendance entre ces probabilités tout en conservant les moyens de faire des calculs de sommation pour les événements aléatoires successifs qui leur correspondent, c’est-à-dire tout en restant à l’intérieur d’un formalisme homogène. Or, c’est ce formalisme qui, selon de Reffye, permet de prendre en compte l’évolution du comportement du méristème en fonction de sa situation dans l’architecture en croissance, c’est-à-dire en fonction de son âge biologique.

Toutefois, tous les processus stochastiques ne sont pas également féconds et manipulables. Cette échappatoire et cette complexification du côté des formalismes de la recherche opérationnelle pourraient donc se révéler stériles à l’usage. En fait, de Reffye se propose tout de suite l’hypothèse simplifiante (qui lui paraît crédible) selon laquelle « l’étape N ne dépend que de l’étape N-1 » 1772 . Ce processus stochastique peut ainsi prendre très vite la forme simple d’une « chaîne de Markov » 1773 . De Reffye conçoit alors un sous-programme simple permettant de « simuler le fonctionnement d’un bourgeon à accroissements dépendants ». Il nous en fournit l’organigramme. Mais, cette fois-ci, il ne compare pas les résultats de la simulation numérique (toujours conçue selon la méthode de Monte-Carlo) avec les données de terrain mais avec les résultats « théoriques » que l’on trouve par ailleurs pour la moyenne et la variance. Ces résultats, qu’il qualifie de « théoriques », sont calculés directement au moyen de formules analytiques et littérales qui découlent elles-mêmes du passage à une représentation algébrique de la chaîne de Markov et à la matrice de variance-covariance associée 1774 . Cette simulation intermédiaire lui sert à comparer et, dit-il, à « voir l’excellente concordance entre la théorie et la simulation » 1775 . Les lois de probabilités construites selon ce processus sont donc validées aux yeux de de Reffye.

Mais on pourrait là encore se demander pourquoi, si de Reffye dispose des formules littérales permettant d’exprimer directement la variance et la moyenne de la hauteur des tiges, il ne prévoit pas de les employer en lieu et place des simulations pas à pas : le programme en serait simplifié, le calcul moins lourd et plus sûr. Nous pouvons interpréter ce choix de la manière suivante : il s’agit pour lui de penser dès maintenant au programme intégratif où tous les sous-modèles seront assemblés et où de telles formules mathématiques explicites n’auront plus cours à l’échelle globale du fait de l’interaction avec d’autres phénomènes. Il lui faut donc conserver la reproduction réaliste du pas à pas du phénomène dans son historicité même afin d’accueillir au mieux la survenue d’autres phénomènes interférants. La condensation des formules ne peut servir ici à remplacer la simulation. Elle sert plutôt au contraire à valider la simulation dans son aptitude à remplacer, à valoir pour une formulation qui, sinon, serait théorique.

De façon significative, nous pouvons d’ores et déjà faire remarquer que les simulations intermédiaires de de Reffye, au cours de son travail d’explicitation et de légitimation, se trouvent servir à deux types bien différents de validation : validation empirique de la simulation par confrontation avec un échantillon de données de terrain qui a été jugé simple d’un point de vue empirique (les boutures), validation théorique de la simulation par confrontation avec les formules analytiques condensantes dans un cas qui a été jugé simple d’un point de vue théorique (c’est-à-dire avec des phénomènes élémentaires désintriqués).

Par la suite, de Reffye peut développer une méthode d’identification directe des paramètres numériques de la simulation qu’il appelle « méthode de résolution de l’architecture par les cimes » 1776 . Cette méthode nécessite des hypothèses supplémentaires restreignant la généralité du processus stochastique. Elle n’est donc valable que pour certains types d’architecture, dont le « modèle architectural de Roux » qui correspond justement au caféier. Il faut notamment supposer, dans un premier temps, que les accroissements sont indépendants, c’est-à-dire que l’activité P du bourgeon orthotrope en particulier (c’est-à-dire sa probabilité de croissance) est constante. De Reffye montre que, dans ce cas précis, si l’on se place à K entre-nœuds du sommet de l’arbre et si l’on observe une population d’arbres identiques (clones) et de même âge, la dimension de la tige varie selon une loi binomiale négative de paramètres K et P. Dès lors si, à partir des mesures de terrain, on calcule, entre autres, la longueur moyenne des tiges et la variance des nombres de rameaux, on peut directement calculer, grâce à des formules algébriques simples, l’activité du bourgeon et la dimension de l’arbre. Dans ce cas de figure également, de Reffye peut se livrer à une simulation numérique intermédiaire dont il compare les résultats avec les valeurs exactes données par les formules. Là encore, il compare les valeurs théoriques, et non des observations, avec des valeurs simulées. Cette comparaison confirme la validité de la simulation mais elle offre aussi l’important intérêt de permettre de chiffrer a priori la taille minimale de l’échantillon qu’il est nécessaire de mesurer en champ pour être sûr que l’on aura affaire à une bonne estimation des paramètres des lois probabilistes. En l’espèce, la comparaison théorie/simulation indique que l’échantillon devra présenter plus de 200 individus 1777 . Par la suite, de Reffye montre que, moyennant une certaine complexification dans les calculs à la main, la méthode peut toujours valoir dans le cas plus réaliste d’une croissance dépendante amortie. Il montre donc sa généralité. La méthode de résolution par les cimes se révèle d’une immense importance pour minimiser le travail de mesure sur le terrain.

Vient alors la phase d’application de ce modèle de simulation numérique au caféier Robusta. Ce modèle est encore partiel puisqu’il ne se présente que sous la forme de processus stochastiques. De Reffye montre qu’il est possible d’identifier tous les paramètres de ce modèle au moyen des données recueillies sur le terrain. Pour un même clone de caféier, d’après les tableaux qu’il nous fournit, la corrélation r calculée entre les observations et les valeurs simulées à partir du modèle probabiliste ajusté se révèle toujours très bonne (r>0,96) 1778 . Il nous donne également la possibilité de comparer, sur les mêmes graphiques, les histogrammes observés et les histogrammes simulés. On y constate clairement le fort recouvrement des uns par les autres 1779 . La forme de la distribution statistique simulée est donc elle même correctement simulée, et pas seulement ses premiers moments.

À cette étape-là de la construction du modèle, à côté de la simulation numérique servant à la validation, de Reffye propose de commencer à « voir les implications graphiques » de cette modélisation stochastique de l’activité des bourgeons. Pour ce faire, il recourt à son ordinateur HP et au traceur de courbe qui lui est connecté. Comme la gestion de la géométrie et de la mécanique des branches reste encore à introduire à ce stade-là, le programme dessine uniquement des profils arborescents rectilignes. Ils sont en deux dimensions et représentent le rabattement de toute la plante sur la feuille de papier, c’est-à-dire une projection d’un volume sur un plan. L’intérêt de cette représentation graphique intermédiaire est que l’on peut déjà observer qualitativement la différence de port entre divers clones du caféier par exemple. Comme on connaît également le nombre exact d’entre-nœuds pour tous ces arbres simulés, on peut même déjà commencer à expliquer la variation inter-clonale et intra-clonale de la production en cerise, c’est-à-dire, au final, en café. Le lien, déjà connu par ailleurs pour certains clones, entre le rendement et l’allure qualitative de leur architecture telle qu’elle est clairement reproduite sur le traceur de courbes est ainsi vérifié. Autrement dit, le lien entre une appréhension qualitative coutumière et un résultat quantitatif probable est explicité et confirmé par la visualisation automatique du profil calculé. Ainsi, certains clones confirment leur adoption préférentielle d’une forme trapue ou plutôt conique ou encore ogivale 1780 , etc.

Notons ici que de Reffye qualifie cette reproduction encore très stylisée de « représentation graphique » alors qu’il réserve l’expression de « simulation spatiale » pour désigner ce qui sera le résultat final des modèles intégrés dans l’infrastructure informatique. Significativement, la représentation est encore clairement abstractive et symbolique pour de Reffye alors que la simulation finale sera plus fidèle à la réalité botanique, ne serait-ce que parce qu’elle restituera une véritable gestion de la tridimensionnalité de la plante. Cette « représentation graphique » intermédiaire présente également l’intérêt de marquer les limites du modèle du fait de la non prise en compte de la mortalité des bourgeons lors de la croissance. C’est aussi en cela que l’on a encore affaire à des « profils théoriques ». Ils ne sont pas susceptibles de reproduire la réalité parfaitement. Et ils mettent ainsi en évidence les différents phénomènes biologiques que les autres sous-modèles mathématiques devront prendre en compte :

‘« En réalité, plus on progresse du sommet vers la base, plus la mortalité affecte les bourgeons. Ainsi, à 30 étages du sommet, 90% des rameaux sont morts et 50% sont déjà tombés. Ceci dégarnit le caféier et change notamment sa silhouette. » 1781

Une modélisation de l’architecture doit en conséquence prendre en compte ce phénomène très important si l’on veut pouvoir évaluer correctement le rendement du caféier dès lors qu’il est très lié à l’architecture globale de l’arbre. C’est ce à quoi de Reffye va s’atteler dans la suite.

Notes
1761.

[Reffye (de), Ph., 1979], p. 15.

1762.

[Reffye (de), Ph., 1979], p. 15.

1763.

[Reffye (de), Ph., 1979], p. 15. C’est nous qui soulignons. Le caractère rigoureusement « logique » de la conséquence en question est discutable dans la mesure où il s’agit plutôt d’une suggestion inductive faite à partir d’observations sur le terrain. En fait, c’est bien à ce niveau là, à savoir celui du bourgeon ou méristème, que la modélisation statistique traditionnelle, c’est-à-dire purement informationnelle ou phénoménologique, s’insère. Son usage en sera par la suite synthétique et non analytique. Et c’est là que résidera essentiellement la nouveauté.

1764.

[Reffye (de), Ph., 1979], p. 19.

1765.

[Reffye (de), Ph., 1979], p. 21.

1766.

[Reffye (de), Ph., 1979], p. 20.

1767.

Voir notamment [Reffye (de), Ph., 1979], p. 13.

1768.

[Reffye (de), Ph., 1979], p. 170.

1769.

[Reffye (de), Ph., 1979], p. 170.

1770.

[Reffye (de), Ph., 1979], p. 20.

1771.

[Reffye (de), Ph., 1979], p. 18.

1772.

[Reffye (de), Ph., 1979], p. 22.

1773.

[Reffye (de), Ph., 1979], p. 22.

1774.

[Reffye (de), Ph., 1979], p. 23.

1775.

[Reffye (de), Ph., 1979], p. 23.

1776.

[Reffye (de), Ph., 1979], p. 27.

1777.

[Reffye (de), Ph., 1979], p. 30.

1778.

[Reffye (de), Ph., 1979], p. 42.

1779.

[Reffye (de), Ph., 1979], p. 49.

1780.

[Reffye (de), Ph., 1979], p. 52.

1781.

[Reffye (de), Ph., 1979], p. 52.