Essai de lexicométrie d’une œuvre arabe classique : Al-’Imtâ‘ wa-l-Mu’ânasa de Tawhîdî

Métadonnées du document

Identifiant du document lyon2.2008.mouelhi_z

Code de l'institution lyon2

Année 2008

Auteurs MOUELHI Zoubeir

Titre Essai de lexicométrie d’une œuvre arabe classique : Al-’Imtâ‘ wa-l-Mu’ânasa de Tawhîdî

Titre autres langues

en	A lexicometrical study of an Arabic classic: Al-’Imtâ‘ wa-l-Mu’ânasa by Tawhîdî

Membres du jury HASSOUN Mohamed --- DICHY Joseph --- BRAHAM ABDELFATTAH --- LELUBRE XAVIER --- SAHLOUL HASSAN

Directeurs de thèses HASSOUN Mohamed --- DICHY Joseph

Diplome Doctorat Nouveau Régime

Etablissement Université Lumière Lyon 2

Ecole Doctorale Lettres, langues, linguistique, arts

Factulté Faculté des Langues

Discipline Linguistique, littérature et civilisation arabes

Date de soutenance 2008-11-22

Type de document Thèse de Doctorat Nouveau Régime

Résumés

fr S’inscrivant dans la perspective générale de l’approche quantitative de l’étude des textes, à la l’intersection de plusieurs disciplines, notamment la linguistique, l’informatique et la statistique, l’approche lexicométrique trouve plusieurs applications eu égard aux textes, qu’ils soient pris isolément (préoccupations d’ordre stylistique, didactique, historique, etc.), comparés entre eux (typologies de textes, approche contrastive, etc.), considérés dans leur relation aux auteurs (homogénéité d’auteur, attribution d’auteurs, etc.) ou dans leur relation au temps (séries textuelles chronologiques, spécificité chronologique, etc.).Dans cette perspective lexicométrique, notre travail qui porte sur un ouvrage célèbre de la pensée arabe médiévale, l’ImtâÝ wa-l-MuÞânasa de TawÎîdî (IVe/Xe siècle) se fixe un triple objectif :En premier lieu, l’élaboration, pour l’arabe, de ce que l’on appelle une norme lexicologique, donnant une assise théorique et méthodologique aux travaux lexicométriques futurs sur les textes arabes. Deux volets composent la norme lexicologique que nous proposons : une norme de saisie et d’harmonisation et une norme de dépouillement.En deuxième lieu, la confection du dictionnaire de fréquences de notre corpus. Fruit naturel de toute étude lexicométrique globale de cette nature, le dictionnaire de fréquences traduit et synthétise les réorganisations formelles opérées sur la séquence textuelle d’origine, ainsi que le résultat des différentes analyses statistiques qui ont porté sur le vocabulaire du texte.En troisième et dernier lieu, soumettre ce corpus à un certain nombre de méthodes d’analyse et de traitement statistiques propres à la lexicométrie en vue d’en étudier, principalement, la structure lexicale mais aussi la trame radicale. Ainsi, la richesse lexicale, l’accroissement du vocabulaire, la répartition des catégories lexicales, la connexion lexicale, etc., qui représentent tant d’éléments et d’indices pouvant caractériser le style d’un auteur, d’un genre ou d’une époque, ont-ils donc été étudiés et analysés. Il est nécessaire dans ce type d’entreprise, que des opérations de dépouillement préalables soient opérées selon des règles claires et stables assorties d’une réflexion minutieuse autour des notions de segmentation, de lemmatisation, de désambiguïsation, de catégorisation, etc. Les décomptes obtenus suite à ces étapes de dépouillement et de quantification, sont soumis aux traitements statistiques et à l’interprétation pour juger in fine des variations des différentes unités linguistiques du corpus et en décrire la structure lexicale.

en Lexicometry belongs to the general field of quantitative textual study and is situated at the intersection of various subjects, among which linguistics, computer science and statistics ; it is concerned with several types of applications in relationship to texts, whether they are considered separately (and studied for their stylistic, didactic or historical properties), compared to one another (as in textual typology, contrastive studies, etc.), considered in their relationship to their authors (studying homogeneity in a given author or automatically attributing texts to specific authors) or to their place in time (textual chronological series, chronological specificity, etc.).In this lexicometrical framework, our dissertation, which is based on a famous work of Arabic medieval thinking, ImtâÝ wa-l-MuÞânasa de TawÎîdî (4th –10th centuries), has a threefold objective:- first, elaborating for Arabic what is known as a lexicological norm that provides a theoretical and methodological foundation for future work in lexicometry based on Arabic texts. There are two components to the lexicological norm that we propose: one for data collection and harmonization and one for data retrieval.- second, building a frequency dictionary for our corpus. The natural outcome of any general lexicometical work of this kind, the frequency dictionary reproduces and synthesizes the formal reorganizations that have been carried out on the original text sequences, as well as the results of various statistical analyses of the text’s vocabulary.- finally, submitting the corpus to various statistical analysis and processing methods that are typical of lexicometry in order to mostly study its lexical structure but also its “radical weft”. Thus, lexical richness, vocabulary increase, the distribution of lexical categories, lexical connectivity, etc., which are as many clues or elements that may characterize an author’s style, a genre or a given time period, have been studied and analyzed. In this type of endeavor, it is essential that data retrieval be carried out in accordance with stable and precise procedures following careful deliberation about such notions as segmentation, lemmatization, disambiguation, categorization, etc. The figures that have been arrived at following the retrieval and quantification stages are then submitted to statistical processing and human interpretation in order to observe variation as measured in the various linguistic units of the corpus and describe its lexical structure.

Mots-clés

fr	Lexicométrie arabe ; norme lexicologique ; dépouillement lexical ; TAL arabe ; segmentation ; lemmatisation ; désambiguïsation ; catégorisation ; structure lexicale ; richesse lexicale ; catégories lexicales ; textes arabes classiques ; linguistique de corpus
en	Arabic lexicometry ; lexicological norm ; lexical data retrieval ; Arabic NLP ; segmentation ; lemmatization ; disambiguation ; categorisation ; lexical structure ; lexical richness ; lexical categories ; classic Arabic texts ; corpus linguistics

Editeur CyberDocs

Format text/xml

Langue fr

Copyright Sous contrat Creative Commons : Paternité-Pas d'Utilisation Commerciale-Pas de Modification 2.0 France (http://creativecommons.org/licenses/by-nc-nd/2.0/fr/) - MOUELHI Zoubeir - Université Lyon 2 - 2008

Diffusion [internet]

Identifier http://theses.univ-lyon2.fr/documents/lyon2/2008/mouelhi_z

Extent 21905

Menu

Métadonnées du document