4.2 Étiquetage semi-automatique de textes arabes

Depuis les années soixante, les corpus textuels mis sur support électronique ont toujours existé pour des langues comme l’anglais ou le français³³. La nouveauté réside dans l’enrichissement de ces corpus et le développement d’outils appropriés à leur traitement. D’abord, les corpus ne sont plus des suites de mots « nus », c’est-à-dire de simples chaînes de caractères, mais ils sont étiquetés (ou annotés ou encore enrichis). Nous entendons par-là l’ajout d’information, de quelque nature qu’elle soit : morphologique, syntaxique, sémantique, etc. Ensuite, les outils d’interrogation de ces corpus enrichis ainsi que les outils d’annotation proprement dits (étiqueteurs, analyseurs syntaxiques, etc.) se répandent.

Les corpus étiquetés sont principalement utilisés en analyse linguistique (cf., Habert & Nazarenko & Salem, 1997). Selon le type d’annotations effectuées, ils mettent en évidence des régularités qui échappent à l’observation « à l’œil nu ». Ils sont devenus désormais des outils indispensables à toute théorisation linguistique.

Nous débuterons cette section par une définition du processus d'étiquetage de texte et par un exemple de phrase arabe étiquetée. Nous aborderons ensuite les problèmes liés à la définition de l'unité de segmentation avant de décrire les processus de segmentation et de lemmatisation.

Notes

33.

En France, un fonds de quelque 160 millions de mots a été patiemment constitué à l’Institut National de la Langue Française (INaLF – CNRS) depuis les années soixante et constitue une base textuelle désormais accessible en ligne : Frantext.