Cette page comporte l’ensemble des cas pratiques du module “Régression sur données non-linéaires” des 1, 2 et 3 mars 2017. Elle a été réalisée avec Rstudio sous Rmarkdown et compilée le 2017-03-19.
Ces premiers cas pratiques reposent sur des exploitations de la base M_CONTRAN fournie par la Banque de France. Celle-ci comporte des informations sur les nouveaux crédits contractés sur la période (la base est en date de décembre 2014), en particulier leur montant, durée initiale, taux effectif global et catégorie d’instruments financiers.
Variable | Description |
---|---|
ident | Identifiant anonymisé |
mt_crdt | Montant du crédit en milliers d’euros |
duree_in | Durée initiale de fixation du crédit en mois |
teg | Taux effectif global (en %) |
categh | Grande catégorie du crédit |
gar | Prêt garanti ou non |
taux | Taux fixe ou variable (et support associé) |
La base est rééchantillonnée au 100ème et limitée aux variables strictement nécessaires à ces cas pratiques. Le taux effectif global est arrondi au dixième. La documentation fournie par la Banque sur les variables est disponible ici.
Dans ce premier cas pratique, on cherche à évaluer le lien entre montant total du crédit et caractère variable du taux d’intérêt à l’aide d’une régression logistique simple: \[\mathbb{P}(taux\_variable_i|montant_i) = \beta_0 + \beta_1 montant_i + \varepsilon_i\]
Assignez une bibliothèque au répertoire dans lequel se situe le fichier m_contran.sas7bdat
et copiez la table dans la WORK
. Repérez dans la table les variables renseignant sur le montant du crédit ainsi que sur le caractère variable du taux d’intérêt et utilisez les outils de la statistique descriptive pour analyser leur distribution. Créez la variable txvar
dichotomique qui indique si le taux d’intérêt est variable (1) ou non (0).
Soumettez le code:
PROC LOGISTIC DATA = m_contran;
MODEL txvar = mt_crdt;
RUN;
Parcourez la sortie de SAS pour déterminer la modalité de la variable txvar
qui est modélisée par défaut. Utilisez l’option DESC
pour corriger ce problème.
Repérez dans les sorties produites par SAS le tableau comportant les paramètres estimés par le modèle. Quel est le signe du coefficient associé à la variable mt_crdt
et comment l’interprétez-vous ? Que pouvez-vous dire de sa valeur ?
Rappelez l’hypothèse nulle et l’hypothèse alternative du test de significativité du coefficient \(\beta_1\) associé à la variable mt_crdt
. Quelles sont les valeurs de la statistique et de la p-valeur associées à ce test ? Menez ce test au seuil de 5 % puis de 1 %, d’abord en utilisant la p-valeur puis en comparant la valeur de la statistique de test aux quantiles d’une loi du \(\chi^2\) à 1 degré de liberté.
Utilisez l’option CLPARM
pour afficher les intervalles de confiance à 95 % des coefficients. Recalculez celui associé à la variable mt_crdt
manuellement à partir des éléments des questions précédentes. Menez sur cette base une dernière fois le test de significativité du coefficient de la variable mt_crdt
au seuil de 5 %.
Dans ce deuxième cas pratique, on cherche à généraliser les résultats obtenus précédemment en estimant un modèle plus complet comportant la catégorie d’instrument financier (variable categh
) et la durée initiale du crédit (variable duree_in
).
Quelle est la nature de la variable categh
? Menez une analyse univariée de cette variable. Quelles conséquences cela a-t-il sur la manière d’intégrer cette variable à la régression logistique (comme à toute régression d’ailleurs) ?
Dichotomisez manuellement cette variable et ajoutez-la au modèle précédent en prenant la modalité tresor
comme référence (sans ajouter duree_in
pour l’instant). Comparez vos résultats à ceux obtenus en soumettant le code:
PROC LOGISTIC DATA = m_contran;
CLASS categh;
MODEL txvar (DESC) = mt_crdt categh;
RUN;
D’où provient la différence selon vous et comment la corrigeriez-vous ?
Comment interprétez-vous les coefficients associés aux deux modalités de la variable categh
figurant dans le tableau de résultat ? Utilisez l’option REF
de l’instruction CLASS
pour modifier la modalité de référence et la placer sur immobi
. Quels changements dans les résultats cela induit-il ?
Ajoutez la variable duree_in
dans le modèle et repérez parmi les tableaux de résultat celui permettant de re-calculer la log-vraisemblance du modèle. Comparez-la à celle du modèle logistique simple estimé dans le cas pratique 1.1 Comment interprétez-vous cet écart ?
Utilisez l’instruction OUTPUT
pour récupérer dans une table les probabilités prédites par le modèle. Utilisez des indicateurs de statistique descriptive pour comparer ces probabilités à la variable txvar
. Le modèle vous semble-t-il de bonne qualité à l’aune de ces éléments ?
L’objectif de ce cas pratique est de comparer la qualité d’ajustement de différentes modélisations de la probabilité que le taux d’intérêt d’un crédit soit variable. En particulier, on considère les modèles : \[m1\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \varepsilon_i\] \[m2\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \beta_2 immobi_i + \beta_3 tresor_i + \varepsilon_i\] \[m3\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \beta_2 immobi_i + \beta_3 tresor_i + \beta_4 duree\_in_i + \varepsilon_i\] \[m4\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \beta_2 immobi_i + \beta_3 tresor_i + \beta_4 duree\_in_i + \beta_5 gar_i + \varepsilon_i\] où gar
est la variable indiquant si le crédit fait l’objet d’un garantie ou non.
Construisez un tableau dans lequel vous reportez la log-vraisemblance, l’AIC et le SC associés à ces quatre modèles. Commentez l’évolution de ces trois indicateurs.
Dans le modèle m4
, interprétez le test par le ratio de vraisemblance de nullité jointe de l’ensemble des paramètres du modèle.
Interprétez également le test de nullité jointe de tous les coefficients associés à la variable qualitative polytomique categh
(effets de Type III). Comparez les statistiques de test et les p-valeurs associés aux autres variables du modèle dans le tableau “Effets de Type III” à celles accompagnant l’estimation des coefficients : que constatez-vous et comment l’expliquez-vous?
Interprétez le pourcentage de concordance du modèle m4
et construisez sa courbe ROC. Sélectionnez un point de cette courbe et interprétez son abscisse et son ordonnée en termes de spécificité et de sensibilité.
Utilisez plusieurs instructions ROC
dans la PROC LOGISTIC
pour comparer les courbes ROC des quatre modèles ainsi que leurs indicateurs de qualité. Que pensez-vous de l’impact de l’ajout des différentes variables sur les propriétés prédictives du modèle ?
Interprétez les odds-ratio associés aux modalités des variables qualitatives du modèle m4
, à savoir categh
et gar
. Reformulez à partir des odds-ratio le test de significativité de l’association entre une variable explicative et la variable expliquée et utilisez l’intervalle de confiance à 95 des odds-ratio pour mener ce test au seuil de 5 %.
Utilisez la macro-fonction %INCLUDE
pour charger le code SAS logistic_marginal.sas
. Utilisez la macro %logistic_marginal
pour calculer l’effet marginal moyen associé aux modalités des deux variables qualitatives du modèle m4
(inspirez-vous de l’exemple présenté dans le support). Comment interprétez-vous ces quantités?
Présentez (avec Word par exemple) les résultats du modèle m4
sous la forme qui vous semble la plus appropriée (libellés des variables, coefficients avec ou sans étoiles, odds-ratio, effets marginaux moyens pour les variables qualitatives, etc.).
Dans le dernier cas pratique de cette partie, on aborde la question des variables d’interaction et de leur interprétation. En particulier, on va chercher à répondre à deux questions spécifiques :
Construisez manuellement (dans une étape DATA) la variable croisée à intégrer dans un modèle susceptible d’apporter des éléments de réponse à la première des deux questions. Estimez ce modèle.
Comment interprétez-vous le signe et la significativité des coefficients associés à cette variable croisée ? Changez la modalité de référence pour être en mesure d’interpréter la significativité des écarts entre les coefficients de plusieurs modalités de cette variable.
Ecrivez le modèle qui permette, en introduisant des interactions entre durée du crédit et catégorie d’instrument financier, d’apporter des éléments de réponse à la seconde question. Utilisez l’opérateur *
dans l’instruction MODEL
pour que SAS construise automatiquement les variables croisées correspondantes.
Comment interprétez-vous le signe et la significativité des coefficients associés aux variables correspondant au croisement ? À nouveau modifiez les modalités de référence pour tester les relations entre plusieurs paires de coefficients (pris deux-à-deux).
(Complément) Comment dans ce contexte testeriez-vous le caractère statistiquement significatif de la relation entre durée initiale du crédit et probabilité d’être à taux variable pour les crédits immobiliers? Ecrivez le modèle contraint correspondant à ce test et menez-le à bien en utilisant l’instruction TEST
de la PROC LOGISTIC
.
On estime un modèle gamma avec fonction de lien logarithmique pour chercher à expliquer le montant d’un crédit en fonction de la catégorie d’instrument financier, de la durée initiale et de la présence ou non d’une garantie.
Pourquoi recourir à une régression gamma pour modéliser la variable de montant du crédit plutôt qu’à une régression linéaire classique? Fournissez des éléments empiriques à l’appui de votre réponse.
Utilisez la PROC GENMOD
pour estimer le modèle souhaité. Sur le base de l’analyse des effets de Type III, que pensez-vous de la pertinence des variables intégrées dans le modèle ? Interprétez les coefficients en termes d’écart moyen en pourcentages.
Comment interprétez-vous en particulier la valeur du coefficient associé à la modalité tresor
de categh
? Vérifiez par une analyse bivariée que le modèle est bien cohérent avec les données sous-jacentes (et qu’il n’y a pas d’erreur de code !).
Réestimez le modèle en laissant de côté les 5 valeurs les plus élevées de mt_crdt
, puis les 5 % de valeurs les plus élevées de mt_crdt
. Cela modifie-t-il substantiellement les résultats de la modélisation?
Nota bene Les instructions des cas pratiques de cette partie sont volontairement moins directives : ils doivent vous permettre de davantage expérimenter sur des données différentes de celles de la table M_CONTRAN. Selon le rythme de progression de chacun, ces cas pratiques ont vocation à être traités pendant ou à l’issue de la formation.
L’enquête Pisa () est une enquête réalisée tous les trois ans par l’Organisation de coopération et de développement économique (OCDE) dans une soixantaine de pays auprès des élèves de 15 ans (quelle que soit leur classe au moment de l’enquête).
Elle vise à mesurer les acquis des élèves de 15 ans dans trois disciplines : mathématiques, compréhension de l’écrit (ou littératie) et sciences. En plus des scores aux tests standardisés de mathématiques, compréhension de l’écrit et sciences, cette enquête comporte de très nombreuses informations sur l’origine sociale des élèves, leurs conditions d’enseignement ainsi que leur rapport aux enseignants et à l’école.
Les données nécessaires sont disponibles ici et les questionnaires adressés aux élèves et aux établissements ici. L’ensemble a été librement téléchargé à partir de cette page.
Variable | Description |
---|---|
cnt | Pays |
stidstd | Identifiant de l’élève |
schoolid | Identifiant de l’établissement |
w_fstuwt | Poids de sondage final de l’élève |
st01q01 | Classe en nombre d’années depuis l’entrée en primaire: la 10\(^{ème}\) classe correspond à la seconde en France. |
st04q01 | Sexe : (1) Femme (2) Homme |
st05q01 | A suivi une scolarité pré-primaire (1) Non (2) Oui, un an ou moins (3) Oui, plus d’un an |
st07q01 st07q02 st07q03 | A redoublé à un moment de sa scolarité : (1) Non (2-3) Oui, une ou plusieurs fois |
st08q01 | Est arrivé en retard au cours des deux semaines précédant l’enquête |
st09q01 | A séché les cours au cours des deux semaines précédant l’enquête |
anxmat | Score synthétique d’anxiété en mathématiques |
disclima | Score synthétique de climat de discipline dans la classe |
escs | Indicateur synthétique de statut économique, social et culturel |
immig | Immigration : (1) Né en France de parents nés en France (2) Immigré de deuxième génération (3) Immigré de première génération |
hisced | Niveau d’étude le plus élevé des parents (nomenclature CITE) |
pv1math | Score synthétique à l’évaluation de mathématiques |
pv1read | Score synthétique à l’évaluation de compréhension de l’écrit |
pv1scie | Score synthétique à l’évaluation de sciences |
sc01q01 | Statut public ou privé de l’établissement (1) public (2) privé |
sc03q01 | Taille de la commune de l’établissement : (1) Village (2) Small town (3) Town (4) City (5) Large city |
sc05q01 | Taille de la classe en cours de français : (01) 15 ou moins (02) 16-20 (03) 21-25 … (08) 46-50 (09) Plus de 50 élèves |
Cette première proposition de cas pratique vise à rechercher quelques déterminants du retard scolaire (au sens du fait d’avoir redoublé à un moment ou à un autre au cours de scolarité), parmi lesquels notamment : le sexe, le fait d’avoir suivi une scolarité pré-primaire, le statut économique, social et culturel, le niveau d’études le plus élevé des parents, le statut public ou privé de l’établissement, la taille de la classe en cours de français, etc.
Les variables st07q01
, st07q02
et st07q03
renseignent sur le fait d’avoir redoublé (1 : Non, 2 : Une fois, 3 : Plus d’une fois) à plusieurs moments de la scolarité:
st07q01
: au cours de la primaire (ISCED 1);st07q02
: au cours du collège (ISCED 2);st07q03
: au cours du lycée (ISCED 3).Construisez une variable synthétisant le fait qu’un élève ait, à un moment ou à un autre de sa scolarité, redoublé une ou plusieurs fois.
On s’intéresse tout particiculièrement à la variable immig
codant l’origine migratoire des élèves (et qui distingue les individus immigrés de première ou de deuxième génération).
La variable anxmat
est un indicateur synthétique de l’anxiété vis-à-vis des mathématiques. On cherche ici à identifier certains déterminants de l’anxiété en mathématiques chez les élèves particulièrement anxieux.
Menez l’analyse univariée de la variable anxmat
. Que constatez-vous quant aux non-réponses ? Recodez cette variable de façon à isoler les élèves particulièrement anxieux en mathématiques (score d’anxiété supérieur au troisième quartile de la distribution).
Menez une régression logistique multivariée sur l’anxiété en mathématiques, en cherchant à répondre à plusieurs questions :