La modélisation de la formation des rameaux : les hypothèses

Sous quelle forme précise ces fonctions de modélisation se présentent-elles et comment de Reffye et Snoeck les justifient-ils ? Tout d’abord, pour ce qui est de la modélisation de la formation des étages ou rameaux, ils partent de considérations qualitatives faites à partir de l’observation d’une courbe empirique simple : l’accroissement annuel en nombre d’étages plagiotropes d’un arbre moyen. C’est à partir d’elle que les hypothèses menant aux fonctions mathématiques modèles vont être suggérées. Avant cette modélisation, il y a donc d’abord une phase d’observation en vue de produire des hypothèses. Mais ce que les auteurs observent n’est que la simple allure de l’évolution de certaines données bien précises. Il faut remarquer que leur choix de la forme fonctionnelle du modèle mathématique ne s’appuie ici sur aucune heuristique explicite ni systématique mais seulement sur un coup d’œil, une culture mathématique personnelle ou bien encore sur l’invocation vague de travaux antérieurs portant sur la modélisation de phénomènes biologiques similaires 1518 . Cependant de Reffye et Snoeck n’observent pas n’importe quoi puisqu’ils ne choisissent d’observer que les données intermédiaires (le nombre d’étages créés à un âge donné) dont ils ont déjà supposé (de façon crédible d’un point de vue biologique) qu’elles pourraient donner lieu à une modélisation simplifiée et par étapes 1519 . Or, cette courbe de mesures montre d’une part que le nombre d’étages plagiotropes qu’un caféier fabrique ne dépend que de son âge : il est donc possible de faire abstraction des variations climatiques. Cela est une hypothèse d’autant plus valable que la Côte-d’Ivoire subit un climat tropical qui ne connaît que peu de variations. Pour accréditer davantage encore leur hypothèse, les auteurs s’appuient sur le fait que l’expert caféiculteur l’utilise tous les jours implicitement, mais en sens inverse, notamment lorsqu’il parvient à estimer l’âge d’un caféier à partir de sa croissance annuelle, c’est-à-dire à partir du nombre de ses derniers étages formés. Cette première hypothèse serait ainsi d’autant plus crédible qu’elle explicite un savoir expert enfoui dans la compétence implicite du caféiculteur. Modéliser impose donc, entre autres choses, d’expliciter l’implicite de certains savoirs experts non encore discursivement accessibles 1520 .

Mais, d’autre part, la forme de cette courbe empirique est, elle aussi, très instructive. C’est elle qui va suggérer le type de la fonction mathématique modèle, c’est-à-dire la deuxième hypothèse. Si on l’interpole, la forme de cette courbe discrète est très proche de celle d’une sigmoïde continue (ou courbe en S). On y distingue en effet « une phase initiale accélérée, une phase linéaire intermédiaire et une phase finale ralentie » 1521 . Cela n’a rien de surprenant, là non plus, car il s’agit de la forme classique que prennent les fonctions de croissance d’un organisme végétal lorsqu’il n’est pas perturbé. Or ce type de courbe peut être indirectement représenté par une fonction mathématique explicitement constructible : la dérivée d’une courbe sigmoïde est une courbe en cloche. Ce sont ces types de courbe en cloche (les fonctions eulériennes de type B) dont les mathématiciens connaissent de façon explicite les fonctions de densité et qu’ils peuvent donc nous permettre de calculer. Or, il est important de noter que c’est précisément dans le fait que l’on dispose de formulations mathématiques explicites pour ces fonctions modélisatrices que de Reffye et Snoeck voient la légitimité qu’il y a désormais à dire que l’on « simule » l’arbre :

‘« Il est intéressant de pouvoir ajuster les courbes observées à des courbes mathématiques afin de pouvoir reconstituer la croissance d’une façon continue, c’est-à-dire la simuler. » 1522

Dans cette première étape de la modélisation de 1976, la « simulation » est donc d’abord comprise par de Reffye et Snoeck comme une reconstitution intégrale d’un phénomène continu par une équation mathématique explicite, exprimable elle-même sous une forme close. Dans cette première étape, simuler, c’est reconstituer continûment la dynamique du phénomène. Or, pour ce suivi continu, de Reffye pense d’abord et avant tout à un suivi mathématique fonctionnel continu, c’est-à-dire d’abord à une fonction analytique, ce dernier terme étant pris au sens de l’analyse mathématique. Cela est important à signaler car nous verrons par la suite que cette interprétation étroite des termes « simulation » et « simuler » va souffrir de quelques gauchissements cruciaux qui feront qu’à la fin de l’article, les termes seront conservés alors même que l’on n’aura plus à faire à un modèle mathématique fonctionnel pur mais à un modèle composite.

Par ailleurs, notons que lorsque de Reffye affirme qu’il nous est permis d’interpoler ici la fonction de croissance, il insère également une hypothèse simplificatrice (la troisième donc) qui consiste à dire que l’on peut représenter sans dommages de façon continue le phénomène discontinu de formation des étages. De Reffye est conscient du caractère hypothétique de cette affirmation. Mais cette hypothèse lui est essentielle s’il veut pouvoir se donner un type de fonctions mathématiques suffisamment régulier pour permettre que des manipulations mathématiques sur ces fonctions nous acheminent ensuite vers une solution calculable. C’est bien le cas des fonctions sigmoïdes dont il faut d’abord supposer qu’elles sont continues pour pouvoir passer à la dérivée. C’est pourquoi le modèle général pourra être qualifié de « modèle mathématique continu ».

Pour finir sur les hypothèses, on voit donc déjà que, quelle que soit l’issue de cette tentative de modélisation, il serait bien évidemment faux de dire qu’elle ne simplifie aucunement les phénomènes pour parvenir à les représenter. Il y a d’abord l’hypothèse que la croissance moyenne ne dépend que de l’âge ; il y a ensuite l’hypothèse de la forme sigmoïde de la courbe de croissance ; il y a enfin l’hypothèse que cette courbe peut être traitée sous sa forme continue sans dommages. Pour de Reffye, modéliser la croissance de l’arbre continûment et au plus près, ce n’est donc certes pas se priver tout à fait d’hypothèses simplificatrices, mais c’est d’une part changer le niveau biologique auquel on s’autorise à insérer ces hypothèses. C’est faire des hypothèses à un niveau biologique inédit par rapport aux hypothèses classiques de l’analyse multivariée. Et, d’autre part, c’est se défaire des hypothèses fréquentes mais rarement explicitées ni rappelées qui soutiennent toutes les analyses de variance : que ce soit l’hypothèse d’indépendance et de pure additivité 1523 des différents facteurs ou même l’hypothèse de faible interaction des facteurs. En effet, l’apport de l’analyse de variance est quasi nul lorsque les interactions entre facteurs, c’est-à-dire en fait les non-linéarités, sont significatives car l’interprétation des résultats et leur utilisation deviennent très délicates 1524 . Modéliser directement par des fonctions complexes au lieu de pratiquer une analyse de variance revient à se donner des hypothèses de modélisation multiples et diversifiées. C’est se libérer des hypothèses contraignantes communes aux modèles statistiques en s’en forgeant certes d’autres, mais plus librement et de façon plus souple 1525 .

Notes
1518.

C’est notamment le cas pour le modèle sigmoïde qu’ils vont s’autoriser à reprendre. Sans référence précise faisant autorité, ils invoqueront seulement, et en général, les études antérieures sur la temporalité des phénomènes de croissance. Rappelons que ces travaux classiques sur la forme sigmoïde remontent au 19ème siècle, notamment à la loi de Verhulst. Voir [Lotka, A. J., 1925, 1956], pp. 69-71.

1519.

Cette dissociation des processus est donc bien en quelque sorte la première hypothèse ou hypothèse fondamentale de la modélisation dissociée puis informatiquement recombinée qui va suivre.

1520.

Cette expérience de clarification des concepts et des notions par la reformulation pour l’ordinateur a été souvent faite par les concepteurs de systèmes experts dans tous les domaines. Pour la biologie, voir notre entretien avec Alain Coléno, |Coléno, A. et Varenne, F., 2001].

1521.

[Reffye (de), Ph. et Snoeck, J., 1976], p. 13.

1522.

[Reffye (de), Ph. et Snoeck, J., 1976], p. 14. C’est nous qui soulignons.

1523.

Voir [Cox, D. R., 1958], chapter 2, pp. 15-22. Dans ce chapitre, l’auteur analyse et énumère les trois « hypothèses clés » nécessaires à la bonne tenue d’un plan d’expériences statistiques : additivité des traitements, constance des traitements, non interférence des traitements d’une unité (ou d’un bloc expérimental) avec le comportement d’une autre unité. Voir la note suivante pour la question de l’additivité.

1524.

On peut se référer sur ce point à [Vessereau, A., 1947, 1988], p. 196 : « Cette hypothèse [d’additivité] se résume en disant qu’il n’y a pas d’interaction A*B entre les effets des facteurs contrôlés A et B. En d’autres termes, le facteur A par exemple n’agit pas différemment suivant la façon différente dont agit de son côté le facteur B (variantes B1, B2, …) ; A et B interviennent indépendamment l’un de l’autre et leurs effets s’ajoutent purement et simplement. » [C’est l’auteur qui souligne.] Voir également [Lagarde (de), J., 1995], p. 131 : pour procéder à une analyse de variance simple, « l’effet global doit être égal à la somme des effets individuels ». D’où la fréquente construction de modèles mathématiques purement additifs pour représenter les effets des facteurs contrôlés. Dans le cas où l’on fait néanmoins intervenir les interactions, on le fait sous la forme de multiplication des contributions des facteurs contrôlés (A*B). Il en résulte un problème majeur d’interprétation des résultats. Voir [Vessereau, A., 1947, 1988], p. 298 : « Il est souvent préférable, dans des cas aussi complexes, de renoncer aux avantages théoriques que présente la décomposition systématique de la somme des carrés QT [termes carrés des effets de l’interaction A*B], et de tester directement telles hypothèses particulières dont on désire prouver la validité. » Autrement dit, quand les phénomènes sont fortement non-linéaires et qu’il intervient des termes quadratiques, il faut les modéliser au lieu d’analyser la variance de leurs facteurs.

1525.

Dans la plupart des cas de modélisation, cela peut sembler un coup de poker que de se donner a priori la forme fonctionnelle précise du modèle, de surcroît non-linéaire, pour en estimer ensuite directement les paramètres sans même se poser auparavant la question de la pertinence de cette forme elle-même. À partir des années 1950, les développements en probabilité, principalement sous l’impulsion de recherches en reconnaissance de formes, vont d’ailleurs proposer des techniques d’estimation de la forme fonctionnelle du modèle dans le cadre de ce que l’on a appelé l’analyse non-paramétrique. Or, ce problème n’est pas posé par nos auteurs. Mais remarquons justement que, dans le cas qui les occupe, s’il y a bien un a priori, ila plutôt joué en amont, c’est-à-dire avant la suggestion de la forme du modèle, sous la forme d’une connaissance biologique particulière (qui dans un autre contexte aurait pu sembler de peu d’importance) : les auteurs se sont appuyés sur des connaissance botaniques et biologiques précisément afin de trouver de quoi fractionner précisément le phénomène réel en étapes favorables à la modélisation, c’est-à-dire susceptibles de suggérer d’elles-mêmes assez facilement et intuitivement (sans gros coup de poker donc) des formes de modèles simples, bien que non-linéaires. La capacité qu’ont les auteurs à exprimer ces sous-modèles sous des formes fonctionnelles a priori simples dépend donc en fait directement du choix antérieur du fractionnement lui-même.