Troisième usage : le traitement de données non numériques ou traitement d’informations

Le troisième usage du calculateur numérique dans les sciences de la vie est celui du traitement de données non numériques. R. S. Ledley donne comme premier exemple l’analyse de chaînes d’acides aminés par calculateur telle qu’elle est intervenue en biochimie des protéines 726 . Une protéine est en effet construite comme une chaîne séquentielle de diverses espèces d’acides aminés qu’il faut identifier puis situer sur la chaîne protéique relativement aux autres acides aminés, un peu comme des lettres dans un mot. Or, les seules expérimentations de chimie organique possibles sur cette protéine conduisent à divers types de ruptures intervenant à divers endroits de la chaîne. Ces expérimentations étant en grand nombre, les sous-produits de ces réactions sont très nombreux également, puisqu’ils sont des fragments eux-mêmes inanalysés. En codifiant chaque acide aminé par une lettre, on a la possibilité de laisser à l’ordinateur le loisir de synthétiser et de tester empiriquement, mais virtuellement, toutes les chaînes protéiques qui rendent possibles les quelques expérimentations de rupture accessibles et réellement faites. Il s’agit donc là d’une forme d’analyse logique par synthèse reconstitutive, formellement réaliste (non mathématiquement abstractive puisque chaque acide aminé est représenté univoquement par un caractère alphanumérique ‘A’ ou ‘B’) et hypothétique. C’est ici la possibilité de concaténer selon des règles logiques des données non numériques qui est mise en œuvre dans le calculateur. On conçoit bien que ce type de problème combinatoire, et non numérique en ce sens, s’apparente davantage à la simulation d’une activité que l’on pourrait dire « intelligente » car mettant en œuvre, face à des données faiblement formalisées, un procédé qui ne relève pas immédiatement du calcul déterministe mais de la procédure heuristique classique essai/erreur.

Ledley donne comme deuxième exemple de traitement de données non numériques le cas du traitement d’image microphotographique, comme la microphotographie d’un chromosome, d’un axone ou de cellules sanguines 727 . Rappelons qu’à l’époque, la biologie cellulaire travaille très souvent à établir les karyogrammes des êtres vivants, cette caractérisation chromosomique ayant de nombreuses applications utiles : non seulement dans le diagnostic de certaines maladies mais aussi en amélioration des plantes dès lors qu’il s’agit par exemple de déterminer la ploïdie des espèces que l’on souhaite hybrider. Le calculateur numérique peut servir dans ce cas à la reconnaissance du type de chromosome en question et à la mesure précise de ses bras par exemple. Il a ainsi une fonction de reconnaissance qui ne s’appuie pas d’abord sur des techniques statistiques de tests mais plutôt sur des suivis complexes (et a priori non formulables analytiquement), et pas à pas, des contours d’objets en vue d’une reconnaissance de formes qui soit aussi une caractérisation numérique pour cet objet et pas seulement une discrimination par rapport à d’autres.

L’image est pour cela d’abord convertie (scannée) en un tableau bidimensionnel de nombres entiers déterminés en fonction des tons de l’image au moyen d’un convertisseur analogique-numérique. Ce tableau est ensuite mémorisé. Pour reconnaître et caractériser automatiquement les contours des objets photographiés, ce tableau est systématiquement parcouru par ce que les chercheurs de la National Biomedical Research Foundation appellent un « cafard » [« bug »] 728 de telle sorte qu’il passe à la case voisine qui a le ton le plus proche de celle qu’il occupait précédemment. Cela dessine un parcours dans ce tableau bidimensionnel qui discerne et situe effectivement les formes photographiées. Les vecteurs qui relient les points de ce parcours dans le tableau peuvent ensuite être analysés entre eux par des procédés mathématiques élémentaires inspirés de l’analyse et de l’algèbre et praticables en FORTRAN (produits scalaires, projections…) : sont-ils parallèles ? Y a-t-il une rotation et, si oui, dans quel sens ?, etc. Ce calcul permet de discriminer des formes élémentaires : en U, en S, en ligne droite… Un certain ordre de concaténation de ces formes élémentaires correspond à la forme précise d’un chromosome (en X). Enfin, une fois reconnu et situé automatiquement, on peut dimensionner ce chromosome, c’est-à-dire le caractériser métriquement, si l’on connaît le taux de grossissement de l’image.

À travers ce procédé dans lequel le calculateur conserve une image de l’objet étudié, il y a donc la possibilité de caractériser numériquement des compositions de courbures et de formes élémentaires qui ne pourraient l’être mathématiquement. Le manque de modèle mathématique simple et abréviatif pour la description des formes complexes est donc ici pallié par une analyse d’image « à vue » et pas à pas, c’est-à-dire élément d’image par élément d’image. Il n’y a donc pas de modèle mathématique quantifié et abréviatif qui soit sous-jacent au procédé de parcours. Il y a seulement des règles logiques ou heuristiques de parcours de données numériques. Ces règles logiques sont censées reprendre intuitivement les règles que le regard humain suit devant une forme nouvelle, devant une forme à laquelle il ne s’attend pas, et qu’il ne peut anticiper. C’est donc une approche purement empirique, beaucoup plus empirico-inductive qu’hypothético-déductive, bien que, au final et malgré tout, il y ait des « modèles » de séquences de vecteurs qui permettent de reconnaître des types de formes élémentaires. Cela est dû au fait que l’on cherche finalement à pouvoir tenir quand même une sorte de discours sur ces séquences de formes élémentaires et qu’ainsi une re-connaissance s’opère bien au moins au niveau de la forme globale.

Le calculateur numérique a ainsi le pouvoir de caractériser ce qui n’a pas encore de sens, c’est-à-dire pas de forme substantielle. Du moins permet-il de disjoindre l’étape de la caractérisation d’une forme de l’étape de sa reconnaissance. Et il établit ainsi une passerelle entre l’analyse d’image et le traitement purement syntaxique et structural (donc non sémantique) de signaux tel qu’il intervient dans la théorie de la communication de Shannon.

Notes
726.

[Ledley, R. S., 1965], pp. 271-276.

727.

[Ledley, R. S., 1965], p. 277.

728.

[Ledley, R. S., 1965], p. 279.