1.1.3. Le programme SPAD et le traitement des données construites avec le questionnaire.

Le logiciel SPAD- Système Portable d’Analyse des Données- fut produit par le CISIA (Centre International de Statistique et d’Informatique Appliquées). Ce logiciel a commencé à être développé dans les année 70 et offre une gamme d’outils qui rendent possible la description des données, la mise en œuvre de méthodes factorielles, de méthodes de classification et de discrimination ainsi que le traitement de données textuelles. Force est de constater que pour des raisons de chronogramme et d’échéances, nous sommes loin d’avoir exploité toutes les fonctionnalités de ce programme informatique d’aide aux traitements et analyses statistiques. Dans le prolongement de ce travail, nous souhaitons aller plus loin dans les analyses statistiques des données que nous avons construites et que nous publierons dans des articles. L’appropriation des fonctionnalités de ce logiciel de statistique fut, pour nous, une occasion de développer nos compétences dans le domaine de la statistique qui est peu ou pas enseigné dans le Mestrado en éducation au Brésil.

La première étape pour de SPAD (ici dans sa version ancienne 4.5 de l’année 2000) consiste en la création de la base de données dans un format proche de celui des tableurs et dont le fichier est identifié par l’extension *.sba. Ce fichier n’est autre que le tableau des séries statistiques des variables déterminées par les questions du questionnaire. Nous avons mis en annexe ce tableau qui comporte autant de lignes qu’il y a d’individus et autant de colonnes qu’il y a de questions élémentaires. Ainsi, par exemple, la question V14 portant sur l’interdisciplinarité est un vecteur-variable de dimension 20, qui a donc 20 composantes nécessitant 20 colonnes pour les décrire.

Après cette construction, nous pouvons commencer le traitement qui s’appuie sur des procédures pré-programmées que le chercheur peut activer dans une application nommée filière, qui est un enchaînement de traitements. Elle se présente de la façon illustrée par la figure ci-dessous.

Figure 1 :Construction d’une filière sous SPAD

Ensuite nous pouvons commander l’exécution qui permet d’obtenir les informations requises et que nous soumettons à l’analyse et à l’interprétation statistiques avant de replacer cette interprétation dans le cadre théorique de notre recherche comme le suggère Régnier (2006a) qui différencie dans la modélisation trois niveaux imbriqués : le modèle du cadre théorique mobilisé pour conduire la recherche, le modèle statistique et le modèle mathématique. Les sorties de traitement sont sous format d’un tableur (type Excel) et sous format Texte. Ces fonctionnalités facilite le transfert de ces résultats vers les rapports de recherche.

Dans le choix des traitements possibles, c’est à dire à la fois les variables, les croisements de ces variables et les traitements adaptés, le chercheur doit constamment se référer à sa problématique comme guide. L’énorme quantité de traitements possibles est un piège dans lequel il peut tomber en cherchant à tous les mettre en œuvre comme le permet l’emploi de SPAD.

À cette étape de notre travail et à ce niveau de l’exploitation des données construites, nous nous sommes limitée, pour les questions numériques et les questions fermées, au traitement désigné dans le jargon statistique : tri à plat.

Nous avons aussi mis en œuvre les fonctionnalités de SPAD pour réaliser le traitement des données textuelles issues des questions ouvertes, à savoir les questions V6, V7, V8 et V9. La base de l’analyse de données textuelles étant la lexicométrie, la première phase requise est celle de l’inventaire des unités d’analyse : les formes graphiques dont les mots d’une langue sont une catégorie, qui vont constituer le vocabulaire de base à partir duquel nous produisons nos analyses fondées sur les fréquences lexicométriques, les segments répétés, les formes, segments et réponses caractéristiques, la contextualisation des formes graphiques. Notons que le choix de la forme graphique comme unité d’analyse plutôt que celui du mot d’une langue offre l’avantage de pouvoir utiliser les mêmes programmes informatiques pour traiter des unités dans les deux idiomes. Il y a aussi une possibilité de modifier la base textuelle initiale par des procédures d’homogénéisation, de réduction par la relation d’équivalence référentielle de deux formes graphiques (Régnier 2006b, p.103). Cela donne alors une nouvelle base qui ne détruit pas la base initiale à laquelle nous pouvons toujours revenir et qui correspond à la forme initiale de saisie des réponses par le chercheur. Pour homogénéiser notre corpus textuel nous avons procédé de la façon suivante : prenant l’exemple du mot compreensão/compréhension :

compreensão	=	Compreensão	Compreensão	compreensao	Compreensao
compréhension	=	Compréhension	compréhension	comprehension	comprehension

D’autres critères peuvent aussi mis en œuvre pour procéder à la réduction de la taille du vocabulaire de base : par exemple, tous les verbes peuvent être remplacés par leur forme à l’infinitif.

Il faut aussi régler la question de l’ambiguïté. Prenons par exemple les deux phrases en français qui utilisent les mêmes formes graphiques, suivantes :

Il livre un lit

Il lit un livre

Et considérons la phase en portugais :

eu como a carne como um leão

Enfin il est possible d’éliminer certaines formes graphiques comme les marques …, les mots du type bof !, euh !, ou encore les connecteurs et les conjonctions

C’est ainsi que nous avons procédé pour obtenir cette base de vocabulaire homogénéisé qui fut ensuite soumise à l’analyse lexicométrique de laquelle nous pouvons obtenir un rangement de l’ensemble des unités d’analyse (formes graphique homogénéisée et désambiguïsée) par ordre lexicographique et par ordre lexicométrique.

Figure 2 : SPAD fréquence des mots

Nous nous sommes alors intéressée aux formes graphiques les plus fréquentes pour lesquelles nous avons procédé à la reconstitution du contexte de leur emploi en faisant ressortir les phrases qui les contiennent. Les deux critères mis en œuvre furent :

a)les dix mots clés rattachés à notre objet d’étude dans l’échantillon du Brésil et en France :

Professor	Enseignant
Aluno	Élève
Interação	Interaction
Prática	Pratique
Atividade	Activité
Desafio	Défi
Reforma	Réforme
Interdisciplinaridade	Interdisciplinarité
Matemática	Mathématique
Diálogo	Dialogue

b)les dix mots les plus fréquents parmi les réponses fournies :

Considérons le cas de la question 11 :

Parmi les réponses fournies, le mot aluno(s) (élève(s)) est apparu 263 fois avec un emploi qui recouvre plusieurs aspects, donc plusieurs sens. Retenir les dix mots les plus utilisés est une façon commode pour pouvoir explorer et exploiter cette multiplicité des informations.

Voici à titre d’illustration un exemple de phrases qui contextualisent l’unité d’analyse, le mot aluno(s) dans le corpus des données du Brésil.

Grande numero de	alunos	na sala sem conhecimento prévio
Falta de motivação dos	alunos
Indisciplina dos	alunos

Dans ce processus d’analyse en contexte des phrases, nous avons à faire à une grande masse d’informations. Nous avons donc eu à cœur de concentrer celles-ci au sein de blocs thématiques pour réduire l’espace des possibles. À cette étape, nous sommes entrée dans la phase d’interprétation fine qui nous avons tenté de présenter le plus synthétiquement possible.