Nous allons représenter cette catégorie par le caractère E. Bien que nous ne traitions que des textes, dans ce travail, il faut prévoir que dans un texte on peut trouver des nombres, soit pour indiquer des dates, soit pour désigner des nombres comme la quantité d’octets d’une mémoire d’ordinateur, la quantité d’espace en disque, ou le coût d'investissement dans un secteur, etc. Ainsi, il faut prendre en compte ces types d’unités. C’est une catégorie particulière qui peut jouer plusieurs rôles dans un syntagme nominal, soit le rôle de prédéterminant (15 livres d’amour), soit d’un nom (la décennie de 50). Un nombre peut être aussi un syntagme nominal, lorsqu’il représente une date (1997, 1998).
Il est nécessaire de repérer ce genre de donnée puisqu’il peut entrer dans la syntaxe de syntagmes nominaux. La question que se pose est : il faut enregistrer ce genre d’unité dans la base de données LEXIQUE ? Or, ces données sont très variées et peuvent provoquer une croissance importante de la base de données. De plus, elles sont de faible utilisation si on les compare avec les unités lexicales (mots). Il nous semble que la meilleure solution serait le passage de ces données identifiées et caractérisées directement au module de reconnaissance et d’extraction de SN. Au module de segmentation SIDUL revient la tâche d’identifier et de caractériser les données numériques. Nous voyons là l’importance de créer cette catégorie. Il faut fournir encore une autre information au module REIS de reconnaissance et d’extraction de SN, pour indiquer s’il s’agit d’un chiffre entier ou décimal. Pour cela, nous allons créer la variable TC, type de nombre dont les valeurs sont :
Le module SIDUL doit indiquer aussi, dans la variable RG, une valeur PGN, pour que le module REIS puisse vérifier à quoi se rapporte le nombre. En fait cette valeur indique que le nombre sera un prédéterminant s’il apparaît à gauche d’une unité qui appartient à la catégorie F, sous-catégorie NOM, sinon il peut être à la place d’une date ou même d’un nom.