Caractérisation, inférence, complexité

Pendant une vingtaine d’années, de nombreux travaux vont donc se succéder sur les L-systèmes avec un point de vue essentiellement théorique, c’est-à-dire avec une approche où la collaboration entre biologie du développement, théorie mathématique des langages et informatique se construit à un niveau essentiellement conceptuel. Il y aura alors une sorte de division du travail : les logiciens et mathématiciens comme G. T. Herman, mais aussi J. van Leeuwen 1306 et A. Salomaa 1307 s’occuperont de la caractérisation des L-systèmes, c’est-à-dire de l’exhibition des propriétés mathématiques des diverses classes de ces systèmes génératifs 1308 , le but étant de prouver l’impossibilité pour certaines de générer telle séquence de structures. Ce travail, apparenté au test théorique des modèles de computation, mène à une classification et à une comparaison systématique de la puissance des langages ainsi conçus. Herman, pour sa part, s’occupera d’abord plus particulièrement (en 1971) de l’inférence syntaxique, c’est-à-dire de l’activité précise qui consiste à essayer de trouver un système génératif correspondant à une structure initialement donnée ou observée. Par la suite, entre 1972 et 1975, avec l’aide des ingénieurs R. Baker, W. H. Liu et Gordon L. Schiff et grâce aux fonds de la National Science Foundation, il conçoit CELIA (CEllular Linear Iterative Array Simulator) 1309 un programme informatique en FORTRAN permettant de simuler sous forme de tableau de chiffres des organismes unilinéaires ou arborescents obéissant à des L-systèmes. Pour lui, le recours à un tel dispositif grossier de « simulation » ne permet pas encore de réfuter ou de valider une hypothèse biologique (ici en l’occurrence la pertinence de la notion d’« information positionnelle » 1310 telle que Lewis Wolpert l’avait introduite en embryologie en 1969 1311 et que Herman reprend en 1975), mais seulement de montrer la potentialité qu’ont en général les L-systèmes à prendre en charge, à l’avenir, de tels tests, une fois que l’on aura des données quantitatives plus précises 1312 .

Lindenmayer, de son côté, tirera des leçons essentiellement théoriques, pour la biologie, de ces recherches sur le formalisme ; et il se penchera surtout sur la signification biologique des systèmes ainsi préconisés par les informaticiens. Assez rapidement, dès 1974, il présentera une vue déjà très générale sur les recherches impliquant les L-systèmes. Cela fera l’objet d’une longue intervention de sa part à la Conférence sur la Théorie des Automates Biologiquement Motivés (Virginie, Etats-Unis, juin 1974). C’est notamment là qu’il s’affrontera à la notion de complexité : il lui apparaîtra de plus en plus qu’avec les L-systèmes, on possède une mesure de la complexité biologique du développement bien plus crédible que celles que proposent les cybernéticiens avec la mesure de l’information de Shannon ou de Kolmogorov. En effet, d’une part, ces mesures informationnelles de la complexité imposent de se représenter l’être en développement sous une forme statique. Elles ne rendent donc pas du tout compte, même de manière simplifiée, de la spécificité d’un phénomène de morphogenèse : au contraire, on a là affaire à un système éminemment dynamique. D’autre part, comme il le précisera bien plus tard dans un article de 1987 :

‘« L’application des mesures d’information ou d’entropie à des processus affectant des êtres organiques n’a jamais été un succès pour cette autre raison que ces mesures sont définies pour une transmission d’information (une communication) d’une source à un récepteur à travers un canal. Dans les organismes, ces composants ne sont pas identifiables. Par exemple, le contenu informatif de l’effectif entier en ADN d’une cellule vivante est immensément grand et il n’y a aucun moyen de trouver comment et quelle partie de cet effectif est actuellement utilisé pendant la durée de vie de la cellule. » 1313

Pour Lindenmayer donc, comme on ne peut « identifier » intuitivement les composants (source, récepteur, canal) nécessaires à la juste application du formalisme informationnel, ce formalisme n’est pas valable pour la mesure de la complexité biologique. Il faut donc trouver un niveau biologique qui permette d’appliquer un formalisme qui soit à la fois réaliste et intuitif, cela, d’une part, afin de crédibiliser les enseignements sur la complexité que l’on peut tirer de ce formalisme, d’autre part afin que ces enseignements ait une signification biologique immédiate. Or, c’est bien le cas du niveau cellulaire et de son traitement par les L-systèmes, selon Lindenmayer. Nous pouvons donc le constater, comme Chomsky le fit en son temps, l’approche modélisatrice de type phénoméniste et informationnelle à la Shannon est ici critiquée par Lindenmayer en ce qu’elle ne permet aucun inférence théorique valable pour le domaine d’application considéré : la biologie du développement.

Pour finir sur cette nouvelle école d’algorithmique, il faut retenir l’idée que la modélisation, ou simulation algorithmique (même si le terme n’est pas prioritairement revendiqué ici), issue d’une certaine biologie du développement a été à l’origine de deux convergences : partielle entre la simulation sur ordinateur et la réalité biologique, quasi-totale entre la modélisation logiciste et les théories des langages. Ce sont ces deux convergences, et surtout la seconde, qui ont contribué à la fixation de cette méthode de modélisation dans les productions scientifiques. Ce qui caractérise ce type de modélisation est l’attention aux formes concrètes discrétisées mais aussi le refus du hasard. Son objectif reste donc en fait théorique : il est assez proche des théories structuralistes contemporaines qui ne se présentaient que comme des modèles à prétentions théoriques, c’est-à-dire prétendant encore dire quelque chose de l’essence des mécanismes sous-jacents aux phénomènes, malgré un déracinement assumé par ailleurs. Le structuralisme, en ce sens, reste fermement attaché au refus de la dispersion. Mais, ce que nous montre l’histoire de cette rencontre particulière, c’est que, malgré ce qu’en disent leurs promoteurs, ces convergences sont plus de forme que de fond. C’est même cela qui fait la possibilité de la convergence. La nature de la convergence reste donc ici de celles que nous avons appelées « absorbantes » : elle est interne au formalisme, mathématique. Au cours des années 1970, Lindenmayer, comme ses collègues, se plaisent ainsi à ramener tel langage à tel autre, à trouver la catégorie la plus large ou la plus étroite pour ces langages. Ils le font certes pour servir à des desseins techniquement et objectivement fondés. Mais ils le font aussi pour chasser la dispersion à quoi le déracinement, par ailleurs assumé, pourrait nous condamner.

Cependant, la générativité de ces langages, le fait qu’ils ne forment pas le plus souvent un système clos et qu’il faille les faire fonctionner pour voir comment ils fonctionnent, le fait que ce soit donc souvent une difficulté mathématique majeure de dire ce qu’ils sont capables de décrire puisqu’on ne peut pas toujours le savoir a priori, témoigne de la naissance d’un type nouveau de modèle : ouvert, génératif pas à pas et constructif. Or, intrinsèquement, la prise en charge de ce type de modèle nécessite le recours à un ordinateur, c’est-à-dire à une machine capable de réitérer en grand nombre des règles élémentaires valant sur un substrat formel spatialisé et dont la topologie change au cours du temps. Joignant l’hétérogénéité spatiale avec la répartition locale des règles, ils s’apparentent à ce que Cournot décrivaient comme des jeux historiques 1314 . Permettant des rencontres entre des règles réparties, même sans hasard objectif (ou simulé), ces modèles sont en effet générateurs d’une certaine historicité dans l’espace. Fermés à la dispersion formelle, ils sont donc potentiellement ouverts à la créativité irréductible et interne de leur modélisation.

Au vu du nombre raisonnable des travaux qui ont rapidement été inspirés par les L-systèmes, il nous paraît incontestable que la biologie théorique ait gagné par là une plus grande audience dans la production scientifique. Ce certain engouement pour l’approche algorithmique en modélisation mathématique est important à signaler car il contribuera ensuite à relancer et à étendre un certain nombre de recherches en biologie théorique, notamment en France, à partir du début des années 1980. Afin de montrer la réalité et la force (certes à relativiser) de cet engouement dès le milieu des années 1970, il nous suffira d’évoquer maintenant le revirement d’un couple de chercheurs français en poste au Laboratoire de Botanique Analytique et de Structuralisme Végétale : Hermann et Jacqueline Lück. Leur laboratoire est alors rattaché à la Faculté des Sciences et Techniques de Saint-Jérôme, à Marseille. Ce cas est particulièrement instructif car il témoigne du fait que, dans le versant botanique de la biologie théorique, la modélisation algorithmique, issue de la théorie des automates et des langages, s’est pensée comme une alternative théorique et formelle à l’analyse statistique mais non essentiellement comme une stratégie instrumentale à visée opérationnelle. Les Lück sont ainsi passés d’une approche de modélisation statistique à une approche de modélisation algorithmique. Toutefois, dans un premier temps, les Lück auront tendance à chercher encore la calibration de leurs L-systèmes. Mais, par la suite, un peu comme Lindenmayer lui-même, aspirés par le domaine ouvert et inexploré des langages et de leur empirie, ils emprunteront une voie plus franchement théorique. L’ordinateur ou l’automate y servira alors uniquement de modèle formel : il ne constituera même pas un instrument concret permettant l’expression ou la manipulation effective de ces nouveaux formalismes. Tâchons maintenant de comprendre ce qui a fait que la rencontre des Lück avec les L-systèmes a été déterminante pour eux. Dans leur domaine, ce travail a constitué très tôt une des rares alternatives françaises à la modélisation pragmatique mais sans jamais pourtant pouvoir en inquiéter réellement l’hégémonie. Ce qui confirme encore que la dispersion demeure à cette époque aussi à ce niveau-là, à savoir entre les propositions d’explication et les propositions d’utilisation.

Notes
1306.

Un jeune mathématicien qui deviendra chercheur et professeur en informatique théorique (spécialité : modèles de computation) à l’Université d’Utrecht. J. van Leeuwen est encore en activité à l’Institute of Information and Computing Sciences de cette université.

1307.

Arto Salomaa est né en Finlande en 1934. Il soutient son doctorat en mathématiques à l’Université de Turku en 1960. Son sujet porte sur la composition de fonctions à plusieurs variables et à valeur sur un ensemble fini. Il s’intéresse donc au départ à la logique et aux mathématiques finitistes avant de se pencher par la suite sur les algèbres finies en général, puis sur la théorie des automates et sur les grammaires formelles. C’est donc assez naturellement qu’au début des années 1970, il rencontre les L-systèmes. Pour sa bibliographie complète, nous renvoyons au site qui se trouve à l’adresse suivant : http://www.sci.utu.fi/mat/tucs/artount9.html . Il a fait toute sa carrière au Département d’Informatique de l’Université de Turku.

1308.

[Prusinkiewicz, P et Lindenmayer, A., 1987], p. 242.

1309.

[Herman G. T. et Schiff, G. L., 1975], p. 35. Voir également [Lindenmayer, A., 1975], p. 7.

1310.

Lewis Wolpert définit l’« information positionnelle » comme la spécification de la position d’une cellule dans un système organique en développement par rapport à un ou plusieurs points du système. L’information positionnelle est elle-même étroitement liée au génome de la cellule et à son histoire développementale. C’est elle qui détermine la différenciation moléculaire de la cellule. Voir [Herman G. T. et Schiff, G. L., 1975], p. 39.

1311.

Même si les historiens des sciences qui ont parlé de Wolpert ne nous semblent pas l’avoir fortement noté (par exemple [Keller, E., F., 2002, 2003], 176-183), il nous paraît très possible, mais pas certain, que ce concept lui ait été inspiré par la fréquentation de son élève Apter. Voir [Apter, M. J., 1966], pp. 140-141. Ce dernier, au sujet de son propre modèle à flux d’informations (voir supra), parle en effet d’une nécessité de supposer que la cellule sache où elle se trouve (ibid., p. 140). D’autre part, c'est ensemble qu’Apter et Wolpert avaient publié ce modèle conçu en fait par Apter dès 1965, dans le Journal of Theoretical Biology, vol. 8, pp. 244-257.

1312.

[Herman G. T. et Schiff, G. L., 1975], p. 38.

1313.

“The application of information or entropy measures to processes of living organisms has never been successful for the additional reason that these measures are defined for information transmission (communication) from source to receiver over a channel. In organisms these components are not identifiable. For instance, the information content of the entire DNA complement of a living cell is immensely large and there is no way of finding out how and what part of it is actually used during the life time of the cell”, [Prusinkiewicz, P. et Lindenmayer, A., 1987], p. 245.

1314.

« ... car non seulement les coups se succèdent [au tric-trac et aux échecs], mais ils s’enchaînent en ce sens que chaque coup influe plus ou moins sur la série des coups suivants et subit l’influence des coups antérieurs », in Essai sur les fondements de la connaissance et sur les caractères de la critique philosophique, 1851, [Cournot, A. A., 1838-1877, 1958], p. 181.