Méthodes quantitatives pour la sociologie 2

Cette page propose une mise en application des méthodes de régression présentées lors des quatre premières séances du séminaire “Méthodes quantitatives pour la sociologie 2”.

Support de cours
Données utilisées (Note: Ces données sont construites à partir des fichiers librement accessibles sur cette page.)
Compléments sur R pour la partie pratique

Cette page a été réalisée avec Rstudio sous Rmarkdown et compilée le 08/03/2018.

Retour à la page d’accueil

Présentation de l’enquête Pisa 2012

L’enquête Pisa () est une enquête réalisée tous les trois ans par l’Organisation de coopération et de développement économique (OCDE) dans une soixantaine de pays auprès des élèves de 15 ans (quelle que soit leur classe au moment de l’enquête).

Elle vise à mesurer les acquis des élèves de 15 ans dans trois disciplines : mathématiques, compréhension de l’écrit (ou littéracie) et sciences. En plus des scores aux tests standardisés de mathématiques, compréhension de l’écrit et sciences, cette enquête comporte de très nombreuses informations sur l’origine sociale des élèves, leurs conditions d’enseignement ainsi que leur rapport aux enseignants et à l’école.

Il s’agit d’une enquête par sondage: à ce titre, chaque fichier dispose d’un poids à utiliser pour généraliser les résultats de l’échantillon d’élèves interrogés à l’ensemble de la population qu’ils représentent.

Organisation des fichiers Les fichiers de l’enquête Pisa 2012 et leur documentation sont librement téléchargeables sur le site de l’OCDE. Seuls deux des nombreux fichiers de données qui constituent l’enquête seront utilisés et ont été restreints à la France uniquement:

le fichier élève int_stu12 comporte la plupart des variables d’intérêt de l’enquête;
le fichier établissement int_scq12 comporte quelques données de contexte intéressantes.

Le fichier établissement est présent en plusieurs formats informatiques (.txt, .csv et .sas7bdat) pour illustrer les différentes méthodes d’importation des données. Les tableaux suivants recensent les principales variables d’intérêt de ces deux fichiers.

Fichier élèves (int_stu12)

Variable	Description
cnt	Pays
stidstd	Identifiant de l’élève
schoolid	Identifiant de l’établissement
w_fstuwt	Poids de sondage final de l’élève
st01q01	Classe en nombre d’années depuis l’entrée en primaire: la 10$^{ème}$ classe correspond à la seconde en France.
st04q01	Sexe : (1) Femme (2) Homme
st05q01	A suivi une scolarité pré-primaire (1) Non (2) Oui, un an ou moins (3) Oui, plus d’un an
st07q01 st07q02 st07q03	A redoublé à un moment de sa scolarité : (1) Non (2-3) Oui, une ou plusieurs fois
st08q01	Est arrivé en retard au cours des deux semaines précédant l’enquête
st09q01	A séché les cours au cours des deux semaines précédant l’enquête
anxmat	Score synthétique d’anxiété en mathématiques
disclima	Score synthétique de climat de discipline dans la classe
escs	Indicateur synthétique de statut économique, social et culturel
immig	Immigration : (1) Né en France (2) Immigré de deuxième génération (3) Immigré de première génération
hisced	Niveau d’étude le plus élevé des parents (nomenclature CITE)
pv1math	Score synthétique à l’évaluation de mathématiques
pv1read	Score synthétique à l’évaluation de compréhension de l’écrit
pv1scie	Score synthétique à l’évaluation de sciences

Fichier établissements (int_scq12)

Variable	Description
cnt	Pays
schoolid	Identifiant de l’établissement
senwgt_scq	Poids de sondage (la somme vaut 1 000 dans chaque pays)
sc01q01	Statut public ou privé (1) public (2) privé
sc03q01	Taille de la commune de l’établissement : (1) Village (2) Small town (3) Town (4) City (5) Large city
sc05q01	Taille de la classe en cours de français : (01) 15 ou moins (02) 16-20 (03) 21-25 … (08) 46-50 (09) Plus de 50 élèves

Documentaton Plusieurs éléments de documentation sont fournis:

le questionnaire rempli par les élèves (PISA12_ScQ_ENG.pdf) et la description du fichier élèves (M_stu_codebook.pdf) (en anglais);
le questionnaire rempli par les établissements (PISA12_ScQ_ENG.pdf) et la description du fichier établissements (M_sch_codebook.pdf) (en anglais);
les principaux résultats de l’enquête en France (PISA-2012-results-france.pdf) (en français) et le rapport technique international (PISA-2012-technical-report-final.pdf) (en anglais).

Question 1 Découverte de l’enquête et de sa documentation

Vérifiez la présence et identifiez l’ensemble des fichiers mentionnés ci-dessus. Ouvrez en particulier le questionnaire élève et observez les premières questions posées (Section A : About you). Retrouvez les variables correspondantes dans le tableau ci-dessus ainsi que dans le fichier .pdf de description du fichier élève.
Ouvrez la note rédigée sur la France (PISA-2012-results-france.pdf) et prenez connaissance de ses principaux résultats. Quand il est fait référence à un résultat statistique précis (moyenne, pourcentage, etc.), recherchez dans les tableaux ci-dessus les variables susceptibles d’avoir été utilisées pour y aboutir.

Import et préparation des données

Question 2 Import des données

Plusieurs formats de fichiers sont fournis afin de présenter différentes méthodes d’importation courantes. Les fichiers de référence à importer et à utiliser dans le reste de la partie pratique sont les fichiers SAS au format .sas7bdat (importation présentée à la sous-question d.).

Le fichier INT_SCQ12_DEC03.txt correspond au format original des données (sur le site de l’OCDE). Il s’agit d’un fichier de données à largeur fixe (fixed-width format): contrairement aux fichiers dont les colonnes sont séparées par un délimiteur (virgules, tabulations, etc.), ici à chaque colonne correspond un nombre de caractères fixe qui est utilisé pour reconstituer les variables du fichier dans le logiciel statistique.

Recherchez le programme Notepad++ sur l’ordinateur et utilisez-le (ou à défaut le bloc-note Windows) pour visualiser le contenu de INT_SCQ12_DEC03.txt (celui-ci étant un peu gros l’ouverture peut prendre un peu de temps). Vérifiez visuellement que les colonnes sont bien de largeur fixe.

Définissez comme répertoire de travail le dossier dans lequel se situent les données de l’enquête. La fonction read.fwf() permet de lire un fichier de données à largeur fixe pour autant qu’on lui fournisse la largeur correspondant à chaque variable. Comment comprenez-vous alors le code suivant (établi à partir des fichiers .sas mis en ligne par l’OCDE) ? Soumettez le code suivant et vérifiez que l’importation se déroule correctement.

sch_fwf <- read.fwf("INT_SCQ12_DEC03.txt", width = c(
  3, 7, 7, 1, 6, 7, 1, 9, 9, 9, 9, 1, 1, 2, 9, 9, 4, 4, 4, 4, 4, 4, 4
  , 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 9, 1, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 9
  , 9, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
  , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 9, 9, 1, 1, 2, 9, 1, 9, 9, 9, 9, 1
  , 1, 9, 9, 9, 9, 9, 9, 8, 8, 9, 1, 1, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9
  , 9, 9, 9, 7
), stringsAsFactors = FALSE)

Bien souvent les fichiers à importer ne sont pas des fichiers à largeur fixe mais des fichiers séparés par un délimiteur (virgule, tabulation, etc.). Rercherchez de l’aide sur la fonction read.csv() et utilisez-la pour importer le fichier INT_SCQ12_DEC03.csv.

Le package de manipulation de données data.table comporte une fonction d’import optimisé pour les données plates séparées par des délimiteurs fread() dont la syntaxe est proche de celle de read.csv(): installez ce package, recherchez de l’aide sur fread() et comparez (soit “à vue d’oeil”, soit en mesurant le temps d’exécution) la vitesse de fread() par rapport à read.csv().

Sur le site de l’OCDE pour l’heure tout est fait pour privilégier un import avec les logiciels SAS ou SPSS. Les fichiers int_stu12.sas7bdat et int_scq12.sas7bdat correspondent aux fichiers importés par SAS au format natif SAS .sas7bdat et restreints à la France. Utilisez la fonction read_sas() pour lire ces fichiers (c’est sur ceux-ci que l’on travaillera désormais).
```
# Installation du package haven (A NE FAIRE QU'UNE FOIS)
# install.packages("haven")

# Chargement du package haven (A FAIRE A CHAQUE SESSION)
library(haven)

# Lecture des fichiers .sas7bdat
stu <- read_sas("int_stu12.sas7bdat")
sch <- read_sas("int_scq12.sas7bdat")
```

Question 3 Exploration et mise en forme des données

Utilisez la fonction names() pour afficher les noms de variables des deux tables. Afin de faciliter les exploitations futures, passez tous ces noms en minuscules.

Affichez les principales caractéristiques des deux objets importés (structure, dimension, nom des variables, etc.). Vérifiez qu’ils ne comportent que des informations relatives à la France.

Afin d’alléger les traitements à venir (pas impératif ici mais toujours utile en pratique), on décide de restreindre les variables d’intérêt à celles identifiées dans les tableaux ci-dessus. Supprimez toutes les autres variables des fichiers.

Question 4 Fusion de tables

On souhaite utiliser les informations au niveau de l’établissement dans des exploitations au niveau des élèves. Pour ce faire, il convient de fusionner les tables stu et sch sur la base de la variable schoolid présente dans les deux tables :

dans la table élèves, il s’agit de l’identifiant de l’établissement auquel appartient l’élève (les élèves provenant du même établissement ont le même schoolid);
dans la table établissement, il s’agit de l’identifiant unique de l’établissement.

Utilisez les fonctions unique(), intersect() et setdiff() pour vérifier que l’identifiant schoolid prend bien les mêmes valeurs dans les deux tables.

Vérifiez que la variable schoolid est un identifiant pour la table sch, à savoir : (1) qu’elle est renseignée pour chaque ligne (2) qu’elle prend une valeur distincte pour chaque ligne.
```
# Pour vérifier que schoolid identifie sch il suffit
# de comparer le nombre de valeurs distinctes au
# nombre de lignes
length(unique(sch$schoolid))
## [1] 226
nrow(sch)
## [1] 226
# Tout va bien !    
```

Utilisez la fonction merge() pour fusionner stu et sch par schoolid dans l’objet stusch. Vérifiez que ses propriétés sont cohérentes avec le résultat des questions précédentes : même nombre de lignes que stu, nombre de colonnes égal à celui de stu et de sch moins 1.

Statistiques uni- et bivariée

Inspirez-vous de la note rédigée sur la France pour choisir un sujet d’étude. Par exemple:

relation entre caractéristiques socio-démographiques et score synthétique en mathématiques, compréhension de l’écrit ou sciences ou probabilité d’être redoublant;
relation entre scolarité pré-primaire et score synthétique en mathématiques, compréhension de l’écrit ou sciences ou probabilité d’être redoublant;
relation entre rapport à l’institution scolaire (angoisse, fait de sécher les cours, etc.) et score synthétique en mathématiques ou probabilité d’être redoublant;
relation entre le contexte d’enseignement de l’élève (statut de l’établissement, climat de discipline, etc.) et score synthétique en mathématiques, compréhension de l’écrit ou sciences ou probabilité d’être redoublant.

Vous pouvez en particulier chercher à recalculer certaines statistiques de la note rédigée sur la France.

Question 5 Statistique descriptive

Utilisez les fonctions vues lors de la première session du certificat pour mener l’analyse uni- et bi-variée des variables pertinentes pour le sujet d’étude que vous avez choisi. En particulier:

construisez au moins un tri croisé entre deux variables qualitatives et interprétez les sur- ou sous-représentations dans la distribution de la première variable ventilée selon les modalités de la seconde;

# Sexe des élèves et redoublement
# Utilisation du package descr pour simplifier l'analyse de tri croisé
library(descr)
crosstab(
  stusch$sexe, stusch$redoublant, weight = stusch$poids
  , prop.r = TRUE, chisq = TRUE, prop.c = TRUE
)
##    Cell Contents 
## |-------------------------|
## |                   Count | 
## |             Row Percent | 
## |          Column Percent | 
## |-------------------------|
## 
## ====================================
##                stusch$redoublant
## stusch$sexe        0       1   Total
## ------------------------------------
## Femme          1776     595    2371 
##                74.9%   25.1%   51.4%
##                53.4%   46.3%        
## ------------------------------------
## Homme          1550     691    2241 
##                69.2%   30.8%   48.6%
##                46.6%   53.7%        
## ------------------------------------
## Total          3326    1286    4612 
##                72.1%   27.9%        
## ====================================
## 
## Statistics for All Table Factors
## 
## Pearson's Chi-squared test 
## ------------------------------------------------------------
## Chi^2 = 18.87363      d.f. = 1      p = 1.4e-05 
## 
## Pearson's Chi-squared test with Yates' continuity correction 
## ------------------------------------------------------------
## Chi^2 = 18.58929      d.f. = 1      p = 1.62e-05 
##         Minimum expected frequency: 624.8755

Dans l’ensemble de la population, 27,9 % des élèves de 15 ans ont redoublé à un moment ou à un autre de leur scolarité. Ils sont 30,8 % parmi les hommes et 25,1 % parmi les femmes : autrement dit, les élèves ayant deroublé à un moment ou à un autre de leur scolarité sont surreprésentés parmi les hommes.

Le test d’indépendance du $\chi^2$ permet de confirmer cette analyse : sa p-valeur est inférieure à 0,01 aussi il est possible de rejeter l’hypothèse nulle d’indépendance entre les variables de sexe et de reoublement au seuil de 1 %.

calculez le coefficient de corrélation entre deux variables quantitatives et menez le test de nullité de ce coefficient (avec la fonction cor.test());
```
# Notes en mathématiques et en sciences
cor(stusch$pv1math, stusch$pv1scie)
## [1] 0.9019808
cor.test(stusch$pv1math, stusch$pv1scie)
## 
##  Pearson's product-moment correlation
## 
## data:  stusch$pv1math and stusch$pv1scie
## t = 141.85, df = 4611, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8964568 0.9072244
## sample estimates:
##       cor 
## 0.9019808
```
Le coefficient de corrélation entre note en mathématiques et note en sciences est positif et extrêmement élevé (0,9020). La p-valeur du test de nullité de ce coefficient est inférieure à 0,01 aussi il est possible de rejeter au seuil de 1 % l’hypothèse que ces deux scores ne soient pas corrélés.
calculez la moyenne d’une variable quantitative ventilée selon les modaliités d’une variable qualitative et effectuez l’analyse de la variance à un seul facteur correspondante pour déterminer si la relation entre ces variables est significative (avec la fonction anova()).
```
# Score en mathématiques selon le statut économique, social et culturel
tapply(stusch$pv1math, stusch$escsq, mean)
## (-3.46,-0.74] (-0.74,-0.21]  (-0.21,0.25]   (0.25,0.72]    (0.72,2.2] 
##      441.6501      468.6728      499.9407      532.5550      567.2039
anova(lm(pv1math ~ escsq, data = stusch))
## Analysis of Variance Table
## 
## Response: pv1math
##             Df   Sum Sq Mean Sq F value    Pr(>F)    
## escsq        4  8908656 2227164  304.51 < 2.2e-16 ***
## Residuals 4483 32788549    7314                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
```
La moyenne du score en mathématiques est d’autant plus élevée que le statut économique, social et culturel est favorisé. Le test de Fisher associé à l’analyse de variance a une p-valeur inférieure à 0,01 : cela confirme que l’association entre statut économique, social et culturel et résultats en mathématiques est statistiquement significative.

Question 6 Réalisation de graphiques avec base R

Proposez des représentations graphiques pertinentes pour synthétiser les relations mises en évidence à la question précédente. Vous pouvez consulter à ce sujet la première partie du support complémentaire pour la partie pratique. En particulier:

construisez au moins un diagramme en bâton ou circulaire à l’aide des fonctions barplot() ou pie() et utilisez les options de mise en forme pour améliorer sa présentation (ajouter un titre avec main(), modifiez les titres des axes avec xlab() et ylab(), etc.);

construisez au moins un nuage de points à l’aide de la fonction plot();

construisez au moins une série de boîtes à moustache à l’aide de la fonction boxplot().

utilisez les fonctionnalités de RStudio (menus déroulants de la fenêtre de graphiques) pour sauvegarder ces graphiques dans la qualité et le format que vous préférez.

Question 7 (Optionnel) Réalisation de graphiques avec ggplot2

Consultez attentivement la deuxième partie du support complémentaire pour la partie pratique puis cherchez à reproduire les graphiques de la question précédente avec ggplot2.

Modélisations

Sur la mise en oeuvre pratique des méthodes de régressions avec R, ne jamais hésiter à consulter les tutoriels très bien faits de UCLA.

Question 8 Régression linéaire

Inspirez-vous de certaines analyses de la note sur la France (par exemple p. 12, sur les performances des élèves issus de l’immigration après contrôle des caractéristiques socio-démographiques) pour proposer des modèles de régression linéaire cohérents avec votre étude. Pensez bien en particulier:

à vérifier le codage des non-réponses dans les données pour que celles-ci ne viennent pas perturber l’analyse (passez-les en NA si ce n’est pas déjà le cas);
à évaluer la qualité de vos modèles à l’aide des indicateurs classiques : $R^2$, $R^2 ajusté$, test de significativité globale de Fisher;
à étudier les résidus et leur distribution;
à interpréter la valeur des coefficients en termes de relation (toutes les autres variables du modèle égales par ailleurs) entre la variable explicative considérée et la variable expliquée;
à interpréter la significativité des coefficients à l’aide soit de la statistique de test, soit de la p-valeur, soit encore de l’intervalle de confiance au niveau souhaité (à construire avec confint.default());
à utiliser le modèle pour prédire la valeur d’individus avec des profils particuliers avec la fonction predict() et à les représenter.

Comme suggéré dans l’énoncé, on choisit d’analyser les relations entre performances en mathématiques et origine migratoire des élèves, en ajoutant quelques variables contrôle.


# Analyse bivariée : test d'égalité des moyennes
tapply(stusch$pv1math, stusch$immig2, mean)
##        0        1 
## 508.3966 445.3395
t.test(stusch$pv1math ~ stusch$immig2)
## 
##  Welch Two Sample t-test
## 
## data:  stusch$pv1math by stusch$immig2
## t = 15.596, df = 872.06, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  55.12156 70.99259
## sample estimates:
## mean in group 0 mean in group 1 
##        508.3966        445.3395

# Analyse multivariée : contrôle par le statut socio-économique brut
m1 <- lm(pv1math ~ immig2 + escs, data = stusch)
summary(m1)
## 
## Call:
## lm(formula = pv1math ~ immig2 + escs, data = stusch)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -297.96  -56.56    1.71   58.44  357.94 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  507.819      1.359 373.793   <2e-16 ***
## immig2       -34.065      3.718  -9.162   <2e-16 ***
## escs          53.465      1.623  32.952   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 84.09 on 4486 degrees of freedom
##   (124 observations deleted due to missingness)
## Multiple R-squared:  0.2396, Adjusted R-squared:  0.2393 
## F-statistic: 706.8 on 2 and 4486 DF,  p-value: < 2.2e-16
# On retrouve presque le chiffre avancé dans le rapport p. 12 :
# "Même après contrôle du milieu socio-économique, en France, les élèves
# issus de l'immigration accusent des scores en mathématiques inférieurs
# de 37 points à ceux des élèves autochtones"

# Analyse multivariée : recodage du statut économique, social et culturel
# et ajout d'autres variables de contrôle
stusch$escsq <- relevel(stusch$escsq, ref = "(-0.21,0.25]")
stusch$sexe <- relevel(stusch$sexe, ref = "Homme")
m2 <- lm(pv1math ~ immig2 + escsq + sexe + redoublant + paspreprim, data = stusch)
summary(m2)
## 
## Call:
## lm(formula = pv1math ~ immig2 + escsq + sexe + redoublant + paspreprim, 
##     data = stusch)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -283.86  -48.19    2.04   48.09  298.66 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         540.450      2.786 194.005  < 2e-16 ***
## immig2              -29.839      3.192  -9.349  < 2e-16 ***
## escsq(-3.46,-0.74]  -27.838      3.491  -7.974 1.94e-15 ***
## escsq(-0.74,-0.21]  -17.286      3.423  -5.050 4.59e-07 ***
## escsq(0.25,0.72]     21.978      3.406   6.453 1.21e-10 ***
## escsq(0.72,2.2]      48.318      3.442  14.040  < 2e-16 ***
## sexeFemme           -18.428      2.162  -8.523  < 2e-16 ***
## redoublant          -99.641      2.578 -38.655  < 2e-16 ***
## paspreprim          -34.342      4.098  -8.380  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 72.07 on 4479 degrees of freedom
##   (125 observations deleted due to missingness)
## Multiple R-squared:  0.442,  Adjusted R-squared:  0.441 
## F-statistic: 443.5 on 8 and 4479 DF,  p-value: < 2.2e-16
plot(rstudent(m2))

Analyse des résultats du modèle m2:

$R^2$ et $R^2$ ajusté de l’ordre de 44 % : faible quand le modèle est utilisé à des fins prédictives, mais suffisant quand le modèle est utilisé à des fins explicatives;
p-valeur du test de significativité globale de Fisher de 0,01 : on peut sans problème rejeter l’hypothèse que le modèle n’apprend rien sur les variations de la variable expliquée.
la valeur du coefficient associé à la variable redoublant vaut -99,64 : en moyenne dans l’échantillon et à sexe, origine migratoire, statut économique, social et culturel et scolarité pré-primaire égaux par ailleurs, le fait d’avoir redooublé est associé à un score en mathématiques de -99,64 points inférieur.
significativité du coefficient associé à redoublant:
- la statistique de test vaut -38,66 et est supérieure en valeur absolue au quantile ) 97,5 % d’une loi normale centrée réduite : on peut rejeter l’hypothèse de nullité du coefficient au seuil de 5 %;
- la p-valeur du test de nullité du coefficient est inférieure à 0,01 : on peut même rejeter l’hypothèse de nullité du coefficient au seuil de 1 %;
- la fonction confint.default() permet de calculer les intervalles de confiance des coefficients :
```
confint.default(m2)
##                         2.5 %    97.5 %
## (Intercept)         534.99032 545.91030
## immig2              -36.09381 -23.58326
## escsq(-3.46,-0.74]  -34.68068 -20.99516
## escsq(-0.74,-0.21]  -23.99409 -10.57742
## escsq(0.25,0.72]     15.30310  28.65344
## escsq(0.72,2.2]      41.57291  55.06373
## sexeFemme           -22.66567 -14.19007
## redoublant         -104.69320 -94.58881
## paspreprim          -42.37370 -26.30951
```
  0 n’appartient pas à l’intervalle de confiance à 95 % du paramètre associé à redoublant, ce qui est une dernière méthode (exactement équivalente aux précédentes) pour conclure que l’on peut rejeter l’hypothèse au seuil de 5 %.

Question 9 Régression logistique dichotomique

Utilisez les variables socio-démographiques disponibles pour modéliser la probabilité d’être en retard scolaire au moment de l’enquête. Pensez bien en particulier:

à évaluer la qualité de vos modèles à l’aide des indicateurs classiques : log-vraisemblance, AIC, BIC, test du ratio de vraisemblance de significativité globale, pourcentage de concordance, courbe ROC;
à interpréter le signe, l’amplitude et la significativité des coefficients;
à calculer les odds-ratio correspondants et leur intervalle de confiance;
à calculer les effets marginaux moyens, à les interpréter ainsi que leur test de significativité.

# Modélisation
m3 <- glm(
  redoublant ~ sexe + escsq + immig2 + paspreprim
  , data = stusch, family = binomial(link = "logit")
)

Indicateurs de qualité

# - Log-vraisemblance, AIC, BIC
logLik(m3)
## 'log Lik.' -2348.076 (df=8)
AIC(m3)
## [1] 4712.151
BIC(m3)
## [1] 4763.424

# - test de significativité globale par le ratio de vraisemblance
library(lmtest)
lrtest(m3)
## Likelihood ratio test
## 
## Model 1: redoublant ~ sexe + escsq + immig2 + paspreprim
## Model 2: redoublant ~ 1
##   #Df  LogLik Df  Chisq Pr(>Chisq)    
## 1   8 -2348.1                         
## 2   1 -2623.8 -7 551.55  < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# - pourcentage de concordance
conc(m3)
## Pct concordant Pct discordant   Pct ex-aequo 
##      69.384488      25.147482       5.468031

# - courbe ROC
library(pROC)
par(pty="s") 
plot(roc(m3$y ~ m3$fitted.values))

Ici la log-vraisemblance, l’AIC et le BIC ne sont que de peu d’intérêt dans la mesure où on ne compare pas plusieurs modèles les uns par rapport aux autres.
La p-valeur du test de significativité globale par le ratio de vraisemblance est inférieure à 0,01 : on peut largement rejeter l’hypothèse que le modèle n’apprend rien sur la variable modélisée.
Avec environ 70 %, le pourcentage de concordance n’est pas très élevé (on préfère une valeur supérieureà 75 %).
De façon relativement cohérente, la courbe ROC et l’aire associée (0,7212) ne rendent pas compte d’une très bonne qualité du modèle en matière de prédiction.

Pour conclure : modèle identifiant correctement certaines variables bien associées au retard scolaire (finalité explicative) mais ne présentant pas un pouvoir prédictif très élevé (finalité prédictive).

Interprétation des coefficients

summary(m3)
## 
## Call:
## glm(formula = redoublant ~ sexe + escsq + immig2 + paspreprim, 
##     family = binomial(link = "logit"), data = stusch)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.6067  -0.7881  -0.5319   1.0785   2.3014  
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        -1.01012    0.08641 -11.689  < 2e-16 ***
## sexeFemme          -0.31738    0.07179  -4.421 9.83e-06 ***
## escsq(-3.46,-0.74]  0.95511    0.10387   9.195  < 2e-16 ***
## escsq(-0.74,-0.21]  0.49486    0.10466   4.728 2.27e-06 ***
## escsq(0.25,0.72]   -0.55680    0.11948  -4.660 3.16e-06 ***
## escsq(0.72,2.2]    -1.24734    0.14205  -8.781  < 2e-16 ***
## immig2              0.27157    0.09643   2.816  0.00486 ** 
## paspreprim          0.75246    0.12135   6.201 5.63e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 5247.7  on 4487  degrees of freedom
## Residual deviance: 4696.2  on 4480  degrees of freedom
##   (125 observations deleted due to missingness)
## AIC: 4712.2
## 
## Number of Fisher Scoring iterations: 5

La p-valeur de tous les coefficients est inférieure à 0,01 : quel que soit le coefficient, on peut rejeter au seuil de 1 % l’hypothèse qu’il est nul. Autrement dit, toutes les variables intégrées dans le modèle sont statistiquement liées à la variable expliquée.

Les coefficients dont l’amplitude est la plus forte sont ceux associés au statut économique, social et culturel : à sexe, origine migratoire et scolarité pré-primaire égaux par ailleurs, les élèves les plus favorisés en termes de statut économique, social et culturel ont une probabilité beaucoup plus faible (coefficient -1,25) d’avoir redoublé au cours de leur scolarité par rapport aux élèves de statut économique, social et culturel intermédiaire ; inversement, les élèves les plus défavorisés ont une probabilités beaucoup plus élevée (coefficient 0,96) d’avoir redoublé au cours de leur scolarité. Le fait de ne pas avoir de scolarisation pré-primaire complète est également fortement associé à une probabilité plus élevée d’avoir redoublé à 15 ans, avec un coefficient de 0,75.

# Calcul des odds-ratio et de leur IC à 95 %
exp(cbind(or = m3$coefficients, confint.default(m3)))
##                           or     2.5 %    97.5 %
## (Intercept)        0.3641737 0.3074348 0.4313841
## sexeFemme          0.7280558 0.6324949 0.8380547
## escsq(-3.46,-0.74] 2.5989440 2.1202103 3.1857736
## escsq(-0.74,-0.21] 1.6402707 1.3360650 2.0137403
## escsq(0.25,0.72]   0.5730409 0.4534043 0.7242451
## escsq(0.72,2.2]    0.2872686 0.2174558 0.3794945
## immig2             1.3120220 1.0860821 1.5849646
## paspreprim         2.1222070 1.6729822 2.6920565

En termes d’odds-ratio, on dira par exemple que les élèves les plus défavorisés ont 2,6 plus de chances d’avoir redoublé à un moment ou à un autre de leur scolarité par rapport aux élèves de statut économique, social et culturel intermédiaire, à sexe, origine migratoire et scolarité pré-primaire égaux par ailleurs.

# Calcul des effets marginaux moyens
margins(m3)
## $sexeFemme
##               Average MFX Std. Error   z value        P>|z|
## sexeFemme = 0  0.30024454         NA        NA           NA
## sexeFemme = 1  0.24478718         NA        NA           NA
## Diff          -0.05545735 0.01252721 -4.426952 9.557393e-06
## 
## $`escsq(-3.46,-0.74]`
##                        Average MFX Std. Error z value        P>|z|
## escsq(-3.46,-0.74] = 0   0.2283160         NA      NA           NA
## escsq(-3.46,-0.74] = 1   0.4152643         NA      NA           NA
## Diff                     0.1869483 0.02179163  8.5789 9.578442e-18
## 
## $`escsq(-0.74,-0.21]`
##                        Average MFX Std. Error  z value        P>|z|
## escsq(-0.74,-0.21] = 0  0.25071833         NA       NA           NA
## escsq(-0.74,-0.21] = 1  0.34082671         NA       NA           NA
## Diff                    0.09010838 0.01973147 4.566734 4.953826e-06
## 
## $`escsq(0.25,0.72]`
##                      Average MFX Std. Error   z value        P>|z|
## escsq(0.25,0.72] = 0  0.28924861         NA        NA           NA
## escsq(0.25,0.72] = 1  0.19718906         NA        NA           NA
## Diff                 -0.09205955 0.01845464 -4.988423 6.087423e-07
## 
## $`escsq(0.72,2.2]`
##                     Average MFX Std. Error   z value        P>|z|
## escsq(0.72,2.2] = 0   0.3032600         NA        NA           NA
## escsq(0.72,2.2] = 1   0.1192096         NA        NA           NA
## Diff                 -0.1840504 0.01639681 -11.22477 3.081726e-29
## 
## $immig2
##            Average MFX Std. Error  z value       P>|z|
## immig2 = 0   0.2632762         NA       NA          NA
## immig2 = 1   0.3123842         NA       NA          NA
## Diff         0.0491080 0.01804905 2.720809 0.006512242
## 
## $paspreprim
##                Average MFX Std. Error z value        P>|z|
## paspreprim = 0   0.2589493         NA      NA           NA
## paspreprim = 1   0.4044567         NA      NA           NA
## Diff             0.1455074 0.02521696 5.77022 7.916814e-09

En termes d’effets marginaux moyens, on dira par exemple qu’à sexe, origine migratoire et scolarité pré-primaire égaux par ailleurs les élèves, les plus défavorisés ont 41,53 % de chances d’avoir redoublé, contre 22,83 % pour les autres élèves. Cet écart est significatif au seuil de 1 %.

Présentation des résultats

Question 10 Exportation et mise en forme des résultats

Exportez et mettez en forme vos résultats de façon à pouvoir construire un rapport statistique sur votre étude. En particulier:

intégrez les résultats numériques dans un logiciel d’édition sous forme de tableaux et présentez-les correctement: numéro de tableau, titre, source, note de lecture, décimales homogènes.
intégrez les graphiques dans un logiciel d’édition et présentez-les correctement: numéro de figure, titre, source, note de lecture.
en particulier pour les modèles de régression: choisissez les indicateurs pertinents à représenter (quelques indicateurs d’ajustements, les coefficients, les odds-ratio ou les effets marginaux d’un modèle logistique dichotomique) et la manière de faire apparaître la significativité (par des étoiles - rappelez alors les seuils en note de lecture - avec les p-valeurs ou les erreurs standards).

Question 11 Génération automatique de rapport avec Rmarkdown

Consultez attentivement la dernière partie du support complémentaire pour la partie pratique sur Rmarkdown puis créez un nouveau fichier Rmarkdown dans RStudio. Après installation des packages nécessaires, sauvegardez et compilez une première fois le fichier d’exemple. Modifiez petit à petit cette base pour intégrer les exploitations statistiques et la présentation des résultats de votre étude.

Annexe : Fonctions mentionnées dans le support

conc() : calcul du pourcentage de concordance d’un modèle logistique dichotomique

conc <- function(m){
  un <- m$fitted.values[m$y == 1]
  zero <- m$fitted.values[m$y == 0]
  t <-rowSums(sapply(un, function(i){
c(sum(i > zero), sum(i < zero), sum(i == zero))  
  }))
  return(c(
"Pct concordant" = t[1] * 100 / sum(t)
, "Pct discordant" = t[2] * 100 / sum(t)
, "Pct ex-aequo"= t[3] * 100 / sum(t)
  ))
}

margins() : calcul des effets marginaux moyens dans un modèle logistique dichotomique

margins <- function(fit, factor = NULL){
  # fit <- m2; factor <- NULL
  if(as.character(fit$call[1]) != "glm") 
stop("Le modèle doit avoir été estimé avec la fonction glm().", call. = FALSE)
  if(!(fit$family$link %in% c("identity", "log", "inverse", "logit"))) 
stop("La fonction de lien doit être \"identity\", \"log\", \"inverse\" ou \"logit\"", call. = FALSE)
  x1 <- model.matrix(fit)
  be <- as.matrix(coef(fit))
  vcv <- vcov(fit)
  disch <- if(is.null(factor)){
temp1 <-apply(x1,2,function(x)length(table(x))==2)
names(temp1[temp1])
  }else factor
  invlink <- switch(fit$family$link
, logit = plogis, log = exp, identity = identity, inverse = (function(x) 1/x)
  )
  invlink_derivative <- switch(fit$family$link
, "logit" = dlogis, "log" = exp, "identity" = identity, inverse = (function(x) -1/x^2)
  )
  lapply(setNames(disch, disch), function(var){
# var <- "femme"
disx0 = disx1 = x1
disx1[, var] = max(x1[, var])
disx0[, var] = min(x1[, var])  
est1 <- mean(invlink(disx1 %*% be))
est0 <- mean(invlink(disx0 %*% be))
est <- est1 - est0
gr = as.numeric(invlink_derivative(disx1 %*% be)) * disx1 - as.numeric(invlink_derivative(disx0 %*% be)) * disx0
avegr = as.matrix(colMeans(gr))
se <- sqrt(t(avegr) %*% vcv %*% avegr)
matrix(c(
  est0, est1, est1 - est0
  , NA, NA,  se
  , NA, NA, est/se
  , NA, NA, 2 * pt(-abs(est/se), df = Inf)
), nrow = 3, dimnames = list(
  c(paste(var, "=", c(0, 1)), "Diff")
  , c("Average MFX", "Std. Error", "z value", "P>|z|")
))
  })
}

robust() : calcul d’erreurs standards robustes dans un modèle linéaire (inspiré de cette page)

robust <- function(model, cluster = NULL){
  if(!require(multiwayvcov)) stop("Le package multiwayvcov est requis. Installez-le avec install.packages(\"multiwayvcov\")", call. = FALSE)
  if(is.null(cluster)) cluster <- 1:length(model$residuals)
  return(coeftest(model, cluster.vcov(model, cluster)))
}