Chapitre 1 - La « loi mathématique » hypothétique de R. A. Fisher (1922)

À l’heure où la botanique apprend à relativiser la valeur des lois phyllotaxiques, les recherches en agronomie et physiologie bénéficient des derniers développements de la méthode expérimentale proposés par l’école de biométrie anglaise. La notion de biométrie avait été introduite par le statisticien anglais Francis Galton (1822-1911) pour désigner la discipline dans laquelle on applique les méthodes de la statistique à la biologie ⁴⁵ . Un de ses buts avoués était de donner des outils rigoureux pour tester quantitativement la théorie darwinienne. Bien qu’il ne s’agisse donc pas d’une tentative de représenter mathématiquement les êtres vivants mais plutôt d’une méthode d’extraction d’un maximum d’informations à partir de données d’expérimentations entremêlées, il est nécessaire de rappeler ici quels sont certains des nouveaux développements de la biométrie anglaise dans les années 1920 car, d’une part, en élargissant la pratique expérimentale et en la libérant de certaines contraintes, ils contribuent fortement à augmenter la testabilité des formalisations du vivant. D’autre part, et en particulier avec le physicien, statisticien et eugéniste anglais Ronald Aylmer Fisher (1890-1962), en poste dans une station d’agronomie, cette pratique statistique introduit le concept de « loi mathématique » ⁴⁶ probabiliste et hypothétique dans les sciences du vivant. Or, par ailleurs, on sait qu’en 1946, le statisticien suédois Harald Cramèr se réfèrera au concept de Fisher en recourant cette fois-ci à l’expression de « modèle statistique » créant le terme et mariant ainsi l’approche modéliste de la théorie continentale des probabilités, et ses développements en mécanique statistique, avec la statistique biométrique anglo-américaine ⁴⁷ . C’est donc dans les travaux de Fisher du début des années 1920 que la biométrie a pour la première fois eu recours à un concept directement assimilable à celui de modèle statistique. C’est là également que la forme et la croissance des plantes sont systématiquement abordées avec un nouvel outillage formel, celui des statistiques. Mais qu’est-ce que Fisher désigne sous le vocable de « loi mathématique » probabiliste et hypothétique à partir de 1922 ? Afin de mieux le comprendre, il nous faut rappeler succinctement le contexte dans lequel Fisher crée ce concept ⁴⁸ .

Fisher a été formé, à Cambridge, en physique et en mathématiques. Il a une formation poussée en mécanique statistique. Il suit les cours de mécanique de James Jeans (1877-1946) comme les cours de théorie des erreurs de l’astronome F. J. M. Stratton (1881-1960). Après une période d’enseignement, sa forte myopie l’empêche de pratiquer la physique expérimentale comme il le souhaitait. Il s’engage alors dans des travaux plus mathématiques et statistiques. À partir de 1919, à cause d’un différend avec le statisticien Karl Pearson (1857-1936), il refuse d’être embauché au Galton Laboratory et choisit le poste de responsable du département de statistiques de la station agronomique de Rothamsted ⁴⁹ . Fisher y a pour mission urgente de traiter une masse de données concernant une grande variété de traitements chimiques appliqués à divers types de cultures sur différents types de sols. L’objectif est d’essayer d’extraire de ces données une information sur l’existence ou non d’une influence des traitements chimiques sur la production végétale. Comme de nombreux facteurs interviennent simultanément (la variété du végétal, le sol, les substances chimiques répandues, le climat, etc.), qu’il n’est pas possible de dissocier leurs contributions respectives les unes des autres et que, pour une expérimentation agronomique particulière on ne dispose le plus souvent que d’un petit nombre d’échantillons ⁵⁰ , il préconise des expérimentations par blocs où chaque bloc présente une combinaison particulière de chacun des facteurs précédemment évoqués (carrés latins). Ces blocs sont disposés dans l’espace par randomisation, c’est-à-dire de façon aléatoire, afin que l’expérimentateur soit certain de ne pas introduire de biais dans la situation des blocs les uns par rapport aux autres, surtout eu égard à la qualité inégale et non contrôlable du sol ⁵¹ , de l’exposition, du ruissellement, etc. En introduisant artificiellement un aléa, Fisher peut limiter la conséquence fâcheuse sur l’estimation des paramètres qu’entraînerait sinon le faible nombre d’expérimentations contrôlées. Le « plan d’expérience » ⁵² qu’il préconise consiste donc finalement en un ensemble d’expérimentations aléatoires et comparatives.

La méthode statistique préconisée par Fisher intervient à ce niveau-là. Elle consiste en une analyse de la production de ces différents blocs au regard des divers facteurs contrôlés et notamment au regard de l’apport d’engrais. Or, selon Fisher, on ne peut pas faire parler les données sans disposer préalablement de la représentation mathématisée d’une population hypothétique ⁵³ . Les données doivent en effet être considérées comme formant un échantillon aléatoire d’une population infinie de faits. Il faut donc distinguer très clairement (ce que, selon Fisher, les bayésiens ⁵⁴ n’ont pas fait) entre la population hypothétique et l’échantillon pris dans cette population que constitue l’ensemble des données observationnelles ⁵⁵ . Fisher s’inspire ici de la théorie des erreurs telle qu’elle est pratiquée pour les mesures astronomiques depuis les travaux de Carl-Friedrich Gauss (1777-1855) sur la distribution normale ou en « cloche » et qui, plus tard, sera dite « gaussienne ». Cette théorie utilise déjà des tests de signification (par la méthode des moindres carrés). Elle le fait non pour rejeter directement des hypothèses théoriques fondées sur les données mais pour rejeter les données aberrantes au vu d’une distribution des mesures jugée sinon normale ⁵⁶ . Cette distribution dite « normale » autour de la moyenne est donc supposée a priori. Suivant cet exemple, selon Fisher, pour tirer une information des données, il faut au préalable « construire une population hypothétique infinie » ⁵⁷ de faits observables car ce ne sont pas les nouvelles données qui devront dicter la forme de cette loi. Et la « spécification » ⁵⁸ consiste en l’imposition d’une « forme » spécifique pour la représentation mathématisée appelée par Fisher « loi mathématique » de la population hypothétique. Pour des raisons de praticabilité, cette « forme » doit être choisie parmi celles qui sont a priori aisément manipulables dans les calculs ⁵⁹ . Cette notion fishérienne de « loi mathématique » généralise donc en quelque sorte celle de « loi de Laplace-Gauss ».

Selon la suggestion de [Gigerenzer et al, 1989, 1997] ⁶⁰ , et suivant en cela le statisticien A. P. Dawid, il nous est possible de formaliser simplement le propos de Fisher. En effet, pour disposer d’une telle « loi mathématique » au sens de Fisher, il faut en fait rassembler une variable X observable sur un échantillon donné d’une population (finie ou infinie), un paramètre Θ supposé être une caractéristique de la population en question et enfin, pour toutes les valeurs x de X et θ de Θ, une fonction de probabilité p(x ; θ) précisant la probabilité d’observer x si θ ⁶¹ . Selon Fisher, une observation nous donne une information pertinente sur le paramètre si la probabilité de faire cette observation varie effectivement en fonction du paramètre. C’est cette fonction de probabilité qui remplace la notion bayésienne, éminemment contestable selon Fisher, de probabilité a priori. Car, dans sa propre « conception de l’expérimentation », le rôle de l’analyse statistique se cantonne à la comparaison de la « loi mathématique » hypothétique avec l’hypothèse nulle, c’est-à-dire au passage d’un test de signification effectué au regard des données mesurées. Or, la vraisemblance du pouvoir causal entre un facteur contrôlé et une production végétale, dès lors qu’elle est évaluée de cette manière est, selon Fisher, bien moins contestable que celle à laquelle on aboutit avec la solution des bayésiens.

Notes

45.

À partir de 1888, Galton avait introduit la notion de « corrélation » pour formaliser la liaison entre deux variables aléatoires. Voir l’article de G. Darmois in [Taton, R., 1961, 1995], p. 77.

46.

“Consequently, it should be clear that the concept of a frequency curve includes that of a hypothetical infinite population, distributing according to a mathematical law, represented by the curve. This law is specified by assigning to each element of the abscissa the corresponding element of probability”, [Fisher, R. A., 1922], p. 312. C’est nous qui soulignons.

47.

[Gigerenzer et al, 1989, 1997], p. 111.

48.

Cette histoire est assez bien connue et a déjà été rapportée, notamment par [Mackenzie, D. A., 1981], [Gigerenzer et al, 1989, 1997], [Desrosières, A., 1993, 2000], pp. 349-353, [Segal, J., 1998], chapitre Ib et [Segal, J., 2003], chapitre 1. Voir également la contribution de l’historien R. Olby dans les actes du colloque « R. A. Fisher et l’histoire de la génétique des populations », in [Roger, J. et al., 1981], pp. 251-289. Pour les besoins de notre étude sur les formalismes mathématiques en biologie, nous ne ferons ici que rappeler les grandes lignes des travaux de Fisher avant de nous appesantir un peu plus sur l’épistémologie du modèle qui s’y dévoile.

49.

Pour tous ces rappels biographiques, voir [Segal, J., 2003], p. 33.

50.

On ne peut donc appliquer la loi dite des « grands nombres ».

51.

Sur l’hétérogénéité du sol, voir [Fisher, R. A., 1926], pp. 503 et 509.

52.

C’est ce que Fisher appelle le “design of experiment“. Nous pourrions proposer de traduire ici design par « conception » au sens d’une planification conceptuelle suivie d’une fabrication. Mais cette traduction présente tout de même un inconvénient. En fait, Fisher n’effectue pas lui-même les expérimentations mais il en conçoit bien le plan, le design également en ce sens quasi-architectural. Si bien que, d’ailleurs, le plan expérimental peut être conçu après que les expérimentations sur le terrain aient effectivement eu lieu comme cela a été en fait le plus souvent le cas à Rothamsted, à l’arrivée de Fisher. Voir [Fisher, R. A., 1962], p. 528 : “… yet a different design involving little or no additional experimental labour increase the precision two-fold, or five-fold or even more…” C’est nous qui soulignons. La planification devient donc postérieure à l’expérimentation. Ce qui prouve que cette planification procède bien d’une stratégie de présentation et de mise en forme d’informations déjà acquises par ailleurs.

53.

[Gigerenzer, G. et al, 1989, 1997], p. 75.

54.

Le théorème de Thomas Bayes (1702-1761) porte sur qu’il appelle la « probabilité des causes », c’est-à-dire sur « la probabilité a priori des diverses causes possibles d’un événement », [Borel, E., 1950, 1969], p. 34. Il permet, « à partir d’une loi de probabilité a priori, de dire comment les résultats de l’observation la modifient », [Taton, R., 1964, 1995], p. 98. Selon Fisher (in [Fisher, R. A., 1925, 1946, 1947], p. 16), c’est la première fois que le calcul des probabilités est conçu comme un instrument de raisonnement inductif. Or, pour que ce théorème soit valable au sens où Bayes l’entend, il faut postuler que la cause est une variable aléatoire. Les bayésiens sont ceux qui, selon Fisher, ne virent pas d’inconvénient à faire ce postulat qui gênait pourtant déjà Bayes. Fisher va sortir de l’impasse en proposant la notion de « vraisemblance » à la place de celle de « probabilité a priori », cette notion n’ayant pas tout à fait les mêmes propriétés mathématiques exigeantes que celle de « probabilité ».

55.

“During the rapid development of practical statistics in the past few decades, the theoretical foundations of the subject have been involved in great obscurity. Adequate distinction has seldom been drawn between the sample recorded and the hypothetical population from which it is regarded as drawn. This obscurity is centred in the so-called ‘inverse’ methods”, [Fisher, R. A., 1922, p. 366. Dans la dernière phrase, Fisher fait allusion à l’approche bayésienne dite de la « probabilité inverse » dans laquelle on résout le problème de la probabilité a priori en « étendant l’idée de probabilité à des inférences concernant des populations d’après des hypothèses ou des observations basées sur des séries limitées », [Fisher, R. A., 1925, 1946, 1947], p. 8. C’est nous qui soulignons. Au contraire, la « loi mathématique » que Fisher propose fait appel à une infinité hypothétique d’observables et peut constituer à ce titre un socle beaucoup plus rigoureux et plus sûr pour mener à une inférence dès lors que les valeurs inférées deviennent ce faisant estimables quantitativement. En effet, elles deviennent par-là accessibles à des tests de signification quantifiés et rigoureux.

56.

Pour une analyse plus approfondie de l’influence de la théorie des erreurs sur l’approche de Fisher, voir [Giegerenzer, G. et al., 1989, 1997], pp. 80-84.

57.

“constructing a hypothetical infinite population“, [Fisher, R. A., 1922], p. 311.

58.

Il s’agit bien d’un problème de « spécification » selon Fisher, c’est-à-dire d’un problème de détermination des caractéristiques spécifiques de la « loi mathématique » à laquelle est censée obéir la distribution de fréquence de la population hypothétique infinie. Voir [Fisher, R. A., 1922, pp. 313-314.

59.

”We must confine ourselves to those forms which we know how to handle, or for which any tables which may be necessary have been constructed”, [Fisher, R. A., 1922], p. 314.

60.

Aux pages 112-113.

61.

Nous reprenons les notations de [Gigerenzer et al, 1989, 1997], p. 112.