6 Statistique descriptive des syntagmes nominaux

Les associations et comportements des syntagmes nominaux dans l’arborescence peuvent être vus au moyen des statistiques descriptives. La figure 5.4, montre la distribution des syntagmes nominaux dans les quinze (15) articles avec toutes ses occurrences.

Il faut dire que l’occurrence multiple d’un même syntagme nominal résulte non seulement de l’occurrence naturelle dans les articles, mais du calcul des anaphores et des syntagmes nominaux avec factorisation. Ces calculs ont produit plusieurs syntagmes nominaux. C’est pour cela qu’on trouve parfois la répétition des syntagmes nominaux dans un même paragraphe.

La figure 5.5, montre la distribution des syntagmes nominaux dans le corpus, sans les doublons. Il faut dire que, bien que dans ce tableau les doublons des syntagmes nominaux dans un même article n’apparaissent pas, on peut trouver encore des doublons des syntagmes nominaux parmi l’ensemble des syntagmes nominaux de plus d'un article.

La comparaison de ces deux tableaux (figures 5.4 et 5.5), indique une chute, en pourcentage, des syntagmes nominaux de niveau 1 et une augmentation, aussi en pourcentage, des syntagmes nominaux des autres niveaux. Cette augmentation s’explique par une quantité plus grande de doublons des syntagmes nominaux de niveau 1 par rapport à ceux des autres niveaux. On voit que les doublons des syntagmes nominaux de niveaux plus élevés (3, 4 et 5) sont plus rares que ceux de niveaux moins élevés (1 et 2).

Le pourcentage de doublons des syntagmes nominaux, dans chaque niveau a été : a) niveau 1, 50,07% ; b) niveau 2, de 20,01% ; c) niveau 3, de 5,57% ; d) niveau 4, de 1,45% ; et e) niveau 5, de 0%.

Depuis la construction de la base de données, où nous avons créé des tables pour chaque niveau des syntagmes nominaux, il a été alors possible de connaître leur distribution finale sans doublons, c’est-à-dire le nombre des syntagmes nominaux uniques pour chaque niveau. La figure 5.6 illustre la distribution des syntagmes nominaux par niveau, sans aucun doublon.

Comme dans la comparaison entre le tableau Distribution des syntagmes nominaux avec doublons et le tableau Distribution des syntagmes nominaux sans doublons dans chaque article, la figure 5.6 indique un petit accroissement dans le pourcentage des syntagmes nominaux des niveaux 2, 3, 4 et 5, en opposition à la chute du pourcentage des syntagmes nominaux de premier niveau. Dans les deux cas, la quantité de doublons des syntagmes nominaux de premier niveau est plus grande que celle des autres niveaux. D’ailleurs, il n’y a pas eu de doublons sur les syntagmes nominaux des niveaux 3, 4 et 5.

La constatation de l’inexistence des doublons des syntagmes nominaux, à partir des niveaux 3, 4 et 5, entre les articles du corpus est cohérente avec l’idée selon laquelle ces niveaux sont responsables du raffinement de la recherche d’information.

Dans l’arborescence on trouve deux genres de syntagmes nominaux ; les premiers qui ne sont pas associés à aucun syntagme nominal, et qu’on appellera désormais syntagmes nominaux terminaux, et les deuxièmes qui se trouvent associés aux syntagmes nominaux de niveau supérieur, que nous appellerons syntagmes intermédiaires.

Les figures 5.7 et 5.8 montrent la quantité des syntagmes nominaux terminaux et celle des intermédiaires.

Ainsi, on a 1808 syntagmes nominaux de premier niveau qui sont aussi terminaux parce qu’ils ne sont associés à aucun syntagme nominal de niveau deux. Comme syntagmes nominaux intermédiaires de premier niveau on a 1120 syntagmes nominaux associés aux syntagmes nominaux de deuxième niveau. Par rapport aux syntagmes nominaux de niveau deux, 1512 sont terminaux et 649 sont associés aux syntagmes nominaux de troisième niveau. La même interprétation est donnée aux syntagmes nominaux de niveau trois et quatre. On se rend compte qu’il y a une décroissance d’environ 8% sur le nombre des syntagmes nominaux d’un niveau donné par rapport à ceux d’un niveau immédiatement supérieur. Ce fait démontre la capacité de raffinement que l’arborescence des syntagmes nominaux possède dans la procédure de navigation et de recherche d’information. Cependant, il faut faire une remarque à l’égard des syntagmes nominaux terminaux et intermédiaires : même les intermédiaires pourront être des syntagmes nominaux terminaux dans certains documents, tandis que dans d’autres ils pourront être seulement intermédiaires. On explique cela par le fait que dans une base de données, on peut trouver des documents qui parlent d’un sujet de manière plus spécifique et d’autres qui en parlent de manière plus générale.

Par rapport à l’arborescence des syntagmes nominaux on a construit le tableau de la figure 5.9.

La figure 5.9 montre qu’il y a 3150 associations entre les centres de syntagmes nominaux et les syntagmes nominaux de premier niveau, 2402 associations entre les syntagmes nominaux intermédiaires de premier niveau et les syntagmes nominaux de deuxième niveau, 852 associations entre les syntagmes nominaux intermédiaires de deuxième niveau et les syntagmes nominaux de troisième niveau, et ainsi de suite.

La figure 5.9 montre qu’il y a 3150 associations entre les centres de syntagmes nominaux et les syntagmes nominaux de premier niveau, 2402 associations entre les syntagmes nominaux intermédiaires de premier niveau et les syntagmes nominaux de deuxième niveau, 852 associations entre les syntagmes nominaux intermédiaires de deuxième niveau et les syntagmes nominaux de troisième niveau, et ainsi de suite.

L’analyse de ce tableau montre, encore une autre fois, la capacité de raffinement permis par l’arborescence des syntagmes nominaux dans une procédure de navigation et de recherche d’information. On constate que dans les associations entre les centres de syntagme nominal et les syntagmes nominaux de premier niveau aussi bien qu’entre les syntagmes nominaux intermédiaires de premier niveau et les syntagmes nominaux de deuxième niveau et entre les syntagmes nominaux intermédiaires du deuxième niveau et ceux de troisième niveau, un syntagme nominal donné amène à plusieurs syntagmes nominaux de niveau supérieur et vice-versa. Ce fait justifie la création, dans la structure de données de la base, des tables spécifiques pour les associations dont les clés composantes sont le code des syntagmes nominaux de niveau inférieur et le code des syntagmes nominaux de niveau supérieur. Cela évite les doublons de clés dans une table.