Une influence de la biologie moléculaire sur la modélisation mathématique du vivant

En 1962, dans la suite de ses recherches, notamment après son travail de post-doctorat au service des National Institute of Health et une fois qu’il a été intégré aux départements de médecine et de mathématique de l’Université d’Etat ainsi qu’au Département de Biométrie du Centre de Recherche sur les Primates de l’Oregon, Stahl abandonne quelque temps l’application de l’analyse dimensionnelle à la biologie pour se consacrer précisément à la modélisation de l’activité enzymatique dans la cellule en gardant à l’esprit l’idée que c’est précisément cette activité qui est déterminée par les gènes. Il passe donc d’un projet de modélisation mathématique de l’anatomie et de la physiologie à la modélisation des objets particuliers de la toute jeune biologie moléculaire : les molécules, les gènes et les enzymes. Selon nous, il faut voir dans cette évolution a priori assez étonnante, même si l’époque s’y prête, deux raisons possibles et non exclusives. D’une part, dès son arrivée dans l’Oregon, Stahl fréquente régulièrement ses collègues du Département de Traitement Automatique des Données dans la mesure où le Département de Mathématiques auquel il est rattaché abrite déjà un groupe de traitement de données dédié aux « biomathématiques » 1135 : il sympathise notamment avec un automaticien du nom de Harry E. Goheen avec lequel il publie un article important dès 1963 : “Molecular Algorithms”. Ce dernier l’initie au formalisme des machines séquentielles au sens de Turing. Or, la rencontre avec les idées de Turing constitue pour lui une véritable révélation. En 1967, Stahl avouera même que c’est plutôt sous l’influence particulière de l’article tardif “Computing Machinery and Intelligence (Can Machines Think ?)” de Turing (1950) 1136 qu’il propose en 1963 la notion de « modélisation algorithmique » 1137 . En effet, il aperçoit là une possibilité de généraliser sa vision de la modélisation (qu’il percevait d’abord sous le seul angle de l’analyse dimensionnelle et de l’invariance numérique) en employant ce qu’il appelle des « critères de similarité » : la modélisation de la pensée humaine telle que la propose et l’anticipe Turing, dans son fameux test de 1950, n’est, pour Stahl, rien d’autre qu’une forme de modélisation où réside là aussi une invariance minimale mais qui n’est plus de nature dimensionnelle, métrique ou numérique, mais seulement algorithmique. L’expression « critères de similarité » se veut donc plus englobante encore puisqu’elle intègre aussi bien les invariants numériques entre un modèle et son prototype que les invariants algorithmiques : en ce sens une machine pourrait penser de façon similaire à un homme. Elle pourrait procéder selon les mêmes étapes élémentaires d’induction, de déduction ou de calcul, par exemple. Il y aurait ainsi une invariance algorithmique de l’homme à la machine.

D’autre part, au vu des avancées récentes de la génétique biochimique et en continuité avec les derniers propos que nous avons rapportés de son article de 1962, Stahl croit pouvoir d’ores et déjà tirer une conséquence radicale pour la conception que l’on doit se faire de la cellule :

‘« Durant la dernière décennie, un progrès spectaculaire dans l’analyse de la génétique biochimique et de la biologie moléculaire a conduit à la conviction croissante que tous les processus cellulaires sont logiquement contrôlés et complètement déterminés par le code génétique. Du point de vue des mathématiques modernes, la cellule peut être regardée comme un grand système de computation ; et ses mécanismes de contrôle général peuvent être examinés à la lumière de la théorie de la computation. » 1138

Stahl a donc le projet de construire une représentation algorithmique des processus enzymatiques et cellulaires parce que, selon lui, on dispose désormais de connaissances biologiques nouvelles qui, sur le fond de ce qu’elles révèlent du fonctionnement enzymatique, légitiment pleinement le recours à des mathématiques qui se trouvent être elles aussi nouvelles. Il lui semble qu’à l’échelle moléculaire, on peut d’ores et déjà faire l’économie du passage par l’analyse dimensionnelle, par cette technique de modélisation qui devait servir à terme à extraire du vivant des rapports à la fois constants et interspécifiques. En effet, de par son origine biophysicienne, Stahl connaissait les derniers travaux « biotopologiques » de Rashevsky et Rosen. À leur contact, il avait perçu l’importance qu’il y avait de trouver d’autres mathématiques que la géométrie ou que l’analyse : son engouement antérieur pour l’analyse dimensionnelle peut aussi rétrospectivement s’expliquer par le fait qu’il cherchait déjà à l’époque à s’émanciper des métriques pour atteindre à un niveau plus formel. Et lorsqu’il prend connaissance de la théorie des automates logiques, Stahl envisage de recourir à l’ordinateur car il a la forte impression de se trouver à la croisée féconde d’une connaissance nouvelle et d’un formalisme tout trouvé. De plus, et à la différence de Rosen, cette application des automates, à la condition qu’on la conçoive au niveau moléculaire, lui semble pouvoir être comprise plus largement et à deux niveaux : au niveau du formalisme comme au niveau de la manipulation du formalisme, à savoir au niveau d’une simulation sur ordinateur du formalisme des automates. Qu’on observe ici que c’est bien toujours pour Stahl se placer dans la continuité d’une attention préférentielle aux structures concrètes des organismes, en forte rupture avec le premier tournant topologique et abstractif de la biologie relationnelle : car c’est bien le changement d’échelle structurelle, le passage au niveau moléculaire qui, selon lui, autorise que la structure spatiale soit simulée en fonctionnement, c’est-à-dire que la structure soit représentée en même temps comme une fonction, que la structure soit fonctionnante du fait même de sa structuration. Ainsi, la structure moléculaire (la chaîne d’ADN par exemple) semble fonctionner tout en structurant et en se structurant, au même titre que la bande de données d’une machine de Turing.

C’est cette possibilité, accessible semble-t-il précisément et d’abord uniquement au niveau moléculaire, de marier la représentation mathématique structurelle d’une structure biologique et la représentation mathématique fonctionnelle d’une fonction biologique qui incite Stahl à passer à la simulation des automates logiques, c’est-à-dire à leur représentation sur ordinateur. Il passe ainsi à une représentation automatique des automates. Ce faisant, il passe également ce cap que Rosen n’avait voulu franchir : le cap de la simulation, c’est-à-dire de la représentation effective de structures organiques sur ordinateur. C’est qu’avec son objet biologique (l’enzyme…), notamment depuis les travaux de 1961 dus à François Jacob et à Jacques Monod 1139 , il n’a pas à choisir entre une biologie qualitative, topologique ou informationnelle et une biophysique métrique et mécaniste. Les deux semblent pouvoir se conjoindre à cette échelle : il ne rencontre donc pas la même répugnance que Rosen à utiliser l’ordinateur comme simulateur. Or, pour cela, Stahl trouve nécessaire, avec l’aide de ses collègues automaticiens (dont Howard E. Goheen, mais aussi Lee B. Lusted, le directeur du Département de Traitement Automatique des Données et de Biomathématiques) de se plonger dans la théorie des automates et de la computation en commençant par la base : les articles de Turing. C’est d’ailleurs cette base sur la machine de Turing que Goheen et lui-même se sentent dans l’obligation de rappeler assez en détail (parce qu’ils la supposent peu connue) aux lecteurs du Journal of Theoretical Biology au début de leur article de 1963. Ce qui indique combien les biologistes, même les biologistes théoriciens, sont encore peu au fait de ces nouveaux formalismes.

Dans ce travail, les auteurs conçoivent ce qu’ils appellent un « enzyme algorithmique », c’est-à-dire un automate qui a la faculté de transformer des substances biochimiques représentées structurellement par des chaînes de lettres 1140 . Pour pouvoir employer commodément la notion de machine de Turing, les auteurs utilisent une présentation équivalente : les Tables de Turing, c’est-à-dire une sorte de tableaux dans lesquels paraissent les symboles des mouvements (à gauche et à droite) de la tête de lecture de l’automate, et ceux qui commandent une écriture ou un éventuel effacement de la case actuellement lue sur la chaîne. Le résultat est l’état final de la chaîne lorsque l’automate s’arrête. Ils proposent alors une série de Tables « simulant » 1141 des activités enzymatiques comme le copiage d’une chaîne d’ADN représentée sous la forme d’une chaîne de lettres. Après avoir prudemment tempéré leur enthousiasme initial, notamment en évoquant le problème de la non-calculabilité qui pourrait s’avérer être la règle en biologie dès le niveau cellulaire, les auteurs montrent que l’on peut tout de même voir se manifester ce qu’ils appellent « une homéostasie logique » 1142 lorsque l’on met en œuvre en même temps plusieurs dizaines d’« enzymes algorithmiques » de ce type. En fait, les auteurs se contentent de montrer que, dans ce dernier cas, le système simulant total devient équivalent à un réseau de neurones formels à seuil de type Pitts-McCulloch (1943). Les auteurs connaissent d’ailleurs personnellement Warren McCulloch et ils ont été, sur certains points, conseillés par lui 1143 . Le système simulant sera, selon eux, en « homéostasie logique » lorsqu’il se maintiendra en équilibre et présentera une stabilité au regard des erreurs de codage et des perturbations environnementales.

Par la suite, en 1967, Stahl publie une série d’articles qui proposent notamment un modèle d’auto-reproduction cellulaire sur ce même principe du traitement par automates de chaînes de caractères et dans lequel l’auteur fait représenter par le programme d’ordinateur 36 puis 46 gènes qui, sous la forme d’automates formels, codent pour des enzymes différentes. Il obtient alors ce qu’il appelle un « modèle de cellule algorithmique » 1144 où une cellule entière tend à être représentée au moyen d’un grand nombre de réactions enzymatiques. Stahl reconnaît qu’il s’agit là d’un modèle « hautement idéalisé » 1145 dans la mesure où seule une infime proportion des réactions enzymatiques supposées intervenir dans la cellule réelle est prise en compte. Cependant, ce travail peut, selon lui, être « chargé de sens » pour les biologistes moléculaires dans la mesure où il peut suggérer des voies d’accès aux phénomènes réels en leur en fournissant une meilleure intuition (rôle heuristique).

Faisant allusion à la technique d’évaluation quantitative de l’organisation d’une cellule-modèle au moyen de la théorie de la communication de Shannon (technique de l’entropie informationnelle relativement élémentaire qu’il ajoute dans le premier article de 1967), Stahl affirme également qu’une telle simulation peut même fournir selon lui une « aide conceptuelle pour la compréhension des cellules réelles » 1146 . En même temps, Stahl indique l’existence d’une autre valeur épistémologique pour ces simulations (qu’il effectue en FORTRAN sur un ordinateur SDS-920) en précisant qu’elles donnent lieu à ce qu’il appelle des « expériences sur ordinateur » 1147 . Ces « expériences » servent, selon lui, à tester la stabilité et l’homéostasie logique du modèle de cellule tout entier. Ainsi, alors qu’à la même époque, au RLE du MIT, Cohen 1148 teste par simulation une hypothèse théorique sur le contrôle génétique de la morphogenèse, Stahl, en se plaçant pour sa part au niveau moléculaire, utilise une simulation du fonctionnement de la cellule par processus de traitements de chaînes automatisés pour tester la crédibilité a priori de l’hypothèse de l’existence d’une stabilité procédant par pure régulation logique et résultant globalement des interactions des enzymes au niveau local. En outre, il faut noter que, si son programme ne prévoit pas une représentation effectivement spatialisée du modèle de cellule résultant (puisque les automates ne sont pas sensibles à la répartition des substances), Stahl en fournit tout de même une, dessinée à la main, dans ses deux premiers articles de 1967 : on y voit un contour circulaire (la cellule) formé par des lettres (codant la membrane) et renfermant des enzymes et un noyau avec sa propre membrane ainsi que son ADN, tous représentés là encore sous forme de chaînes de caractères géométriquement disposées de sorte à donner au modèle une allure rappelant la forme concrète d’une cellule réelle.

Stahl a ainsi conscience qu’il propose bien une simulation ou un modèle sur ordinateur (« computer model ») de la cellule et de son auto-reproduction et non un modèle mathématique : cela tient au fait que, selon lui, il propose une « représentation directe et littérale » des substances biochimiques. Ainsi, il rattache sa perspective à celles qui ont déjà vu le jour dans ce qu’il appelle « les mathématiques modernes » et qui ont consisté à contourner les difficiles résolutions de certaines équations différentielles par le moyen de la simulation 1149 . Cependant, de façon tout à fait suggestive, il tient également à distinguer son approche de celle du biophysicien et biochimiste David Garfinkel 1150 qui, pour sa part, propose ce que Stahl appelle « un modèle de calculateur numérique de la cinétique enzymatique » 1151 . On se souvient en effet que Garfinkel représentait les molécules biochimiques une à une dans la mémoire de son ordinateur et qu’il demandait ensuite au programme en FORTRAN d’en organiser aléatoirement (par la méthode de Monte-Carlo) les rencontres et les réactions. À ce titre, dans les simulations numériques de Garfinkel, les interactions entre les éléments représentés « littéralement » sont réduites au minimum alors que ce qui caractérise la simulation de Stahl consiste dans le fait qu’il a voulu implémenter jusqu’aux fonctions logiques et de régulation que certains de ces éléments pouvaient exercer les uns sur les autres. Ainsi, le modèle de Garfinkel ne s’occupe que de cinétique enzymatique mais pas de l’induction enzymatique ni des mécanismes que déploient les acides nucléiques 1152 . C’est que Stahl, au contraire de Garfinkel, ne part pas d’équations différentielles préexistantes dont il donne ensuite une interprétation atomiste ou moléculaire pour mieux les résoudre ou les approximer lorsqu’elles sont insolubles analytiquement. Il part du gène concret dans sa complexité structurelle supposée. Il part de l’action du gène entendue comme une série d’activités logiques et automatiques donc algorithmiques : d’où une représentation à la fois littérale (c’est-à-dire structurelle sans qu’elle soit pourtant effectivement spatialisée) et fonctionnelle, bien que très idéalisée.

C’est semble-t-il la raison principale pour laquelle, par la suite, à la fin des années 1990, la plupart des bioinformaticiens et des spécialistes de la génomique verront dans cet article de Stahl et Goheen le travail séminal qui a conduit à l’émergence de leurs propres disciplines 1153 . En 2001, le bioinformaticien Jake Chen reconnaîtra ainsi que ce qui fait rétrospectivement la valeur de ce travail tient au fait qu’il essaie de trouver, au moyen d’une représentation sur ordinateur, une « corrélation adéquate entre les structures et les fonctions moléculaires » 1154 . Pour notre part, avec cette évocation de Walter R. Stahl, nous ne faisons qu’indiquer ici, en passant, un point de bifurcation de la simulation sur ordinateur de phénomènes biologiques structuraux, d’une part vers l’algorithmique moléculaire, qui deviendra en effet la bioinformatique aux alentours de 1990, d’autre part, vers la modélisation sur ordinateur de phénomènes biologiques plus intégrés et se manifestant à échelle macroscopique, comme les phénomènes de développement et de morphogenèse que nous continuerons ici à suivre plus particulièrement. Nous ne retracerons donc pas dans la suite l’histoire de la branche « moléculaire » de la simulation des phénomènes biologiques sur ordinateur. Nous renvoyons pour cela à l’historique de Jake Chen 1155 .

Notes
1135.

[Stahl, W. R. et Goheen, H. E., 1963], p. 285.

1136.

Paru dans Mind, 1950, vol. LIX, no. 236, pp. 433-460.

1137.

[Stahl, W. R., 1967c], p. 202.

1138.

”During the last decade spectacular progress in analysis of biochemical genetics and molecular biology has led to an increasing conviction that all cellular processes are logically controlled and completely determined by the genetic code. From the viewpoint of modern mathematics the cell may be regarded as a large computation system and its overall control mechanisms examined in the light of computation theory”, [Stahl, W. R. et Goheen, H. E., 1963], p. 267.

1139.

Stahl cite le célèbre article de François Jacob et Jacques Monod paru en 1961 dans le Journal of Molecular Biology “Genetic Regulatory Mechanisms in the Synthesis of Proteins” (J. Mol Biol., 3, 1961, pp. 318-356) dans [Stahl, W. R. et Goheen, H. E., 1963], pp. 267 et 285, puis dans [Stahl, W. R., 1965], p. 293. Rappelons que, dans cet article, les auteurs présentent d’abord le système enzymatique d’induction et de répression de l’expression des gènes puis la notion de gène régulateur qu’il distingue de celle de gène structural. Ils montrent notamment que les gènes régulateurs sont chargés de réguler certaines inductions de l’expression de gènes structuraux par l’inhibition d’une répression. C’est ce que Michel Morange appelle « le schéma général de régulation négative de l’expression des gènes » [Morange, M., 1994], p. 202. Il faut cependant noter que Stahl et Goheen ne font aucun usage de l’approche cybernétique (c’est-à-dire par boucles de régulation) de Monod et Jacob car ce n’est pas ce formalisme qu’ils vont employer : cet article les impressionne uniquement parce qu’« il analyse des processus cellulaires du point de vue du contrôle moléculaire » (“…and others which analyzes cellular processes from the viewpoint of the molecular control”, [Stahl, W. R. et Goheen, H. E., 1963], p. 267. Ce n’est donc pas par ce biais cybernétique (même si leur approche implémente également un contrôle logique) qu’ils ont l’idée de recourir à l’ordinateur conçu à la fois comme modèle de formalisme et comme simulateur.

1140.

[Stahl, W. R. et Goheen, H. E., 1963], p. 266.

1141.

C’est bien le terme « simulating » qui est employé : voir [Stahl, W. R. et Goheen, H. E., 1963], p. 273.

1142.

“logical homeostasis“, [Stahl, W. R. et Goheen, H. E., 1963], p. 273.

1143.

[Stahl, W. R. et Goheen, H. E., 1963], p. 285.

1144.

“the algorithmic cell model”, [Stahl, W. R., 1967a], p. 584.

1145.

”The model is highly idealized. It bears somewhat the same relationship to real cells as computer circuits do to the brain, but shows that automata theory should be applied to molecular biology in a meaningful way“, [Stahl, W. R., 1967a], p. 581.

1146.

“a new conceptual aid for understanding real cells”, [Stahl, W. R., 1967a], p. 604.

1147.

“Computer experiments“, [Stahl, W. R., 1967a], p. 581.

1148.

Voir supra.

1149.

“In modern mathematics, there has been a growing tendency to bypass solution of differential equations, as such, and rather to simulate complex kinetics interactions in a more direct and literal manner”, [Stahl, W. R., 1967b], p. 202.

1150.

Voir supra.

1151.

“Digital computer models of enzyme kinetics”, [Stahl, W. R., 1967b], p. 200.

1152.

[Stahl, W. R., 1967b], p. 200.

1153.

Jake Chen rappelle et adapte les définitions de ces deux termes récents et au sujet desquelles il pourrait, selon lui, y avoir une sorte de consensus. Cependant, même si nous ne pouvons nous étendre ici sur la question, nous nous devons d’ajouter cet avertissement en préambule : la désignation de bioinformatique est en fait actuellement âprement discutée et disputée par ceux qui pratiquent justement la simulation des êtres vivants sur ordinateur à échelle non moléculaire. Voir, sur ce point, notre entretien avec François Houllier : [Houllier, F., Varenne, F., 2000]. Selon Chen donc, « la bioinformatique est la capture, le management, l’analyse et la dissémination de l’information biologique en lien avec la découverte de médicaments émergents et avec des paradigmes de traitement de maladies. C’est une étude interdisciplinaire aussi bien qu’une pratique industrielle. Elle utilise des techniques venues primitivement de la technologie de l’information, des statistiques et de la biologie computationnelle de façon à traiter et à analyser des données générées à partir de la génomique structurale, de la génomique fonctionnelle, de la protéomique, de la chimie combinatoire et des projets de tri à sortie de haute qualité [« high-throughput screening projects »] », [Chen, J., 2001], p. 2. Chen définit alors la « biologie computationnelle » elle-même comme l’« étude des méthodes computationnelles en biologie », ibid., p. 2. Il rappelle également que la génomique est la discipline qui cartographie, analyse et séquence le génome. Indiquons enfin pour notre part que la protéomique est « l’étude des protéines, de leur emplacement, de leur structure et de leur fonction » (définition extraite du site de Génome/Québec : http://www.genomequebec.com/asp/dirProteomiqueBref/proteomics.asp).

1154.

“the proper correlation between molecular structures and functions”, [Chen, J., 2001], p. 4. Chen définit alors la biologie computationnelle comme l’« étude des méthodes computationnelles en biologie », ibid., p. 2.

1155.

Voir [Chen, J., 2001], pp. 2-7.