Cette page comporte l’ensemble des cas pratiques du module “Régression sur données non-linéaires” des 1, 2 et 3 mars 2017. Elle a été réalisée avec Rstudio sous Rmarkdown et compilée le 2017-03-19.

Cas pratiques à partir de la base M_CONTRAN

Ces premiers cas pratiques reposent sur des exploitations de la base M_CONTRAN fournie par la Banque de France. Celle-ci comporte des informations sur les nouveaux crédits contractés sur la période (la base est en date de décembre 2014), en particulier leur montant, durée initiale, taux effectif global et catégorie d’instruments financiers.

Variable Description
ident Identifiant anonymisé
mt_crdt Montant du crédit en milliers d’euros
duree_in Durée initiale de fixation du crédit en mois
teg Taux effectif global (en %)
categh Grande catégorie du crédit
gar Prêt garanti ou non
taux Taux fixe ou variable (et support associé)

La base est rééchantillonnée au 100ème et limitée aux variables strictement nécessaires à ces cas pratiques. Le taux effectif global est arrondi au dixième. La documentation fournie par la Banque sur les variables est disponible ici.

Partie 1 : Estimer un modèle logistique dichotomique

 

Cas pratique 1.1 Régression logistique simple : Montant du crédit et taux d’intérêt variable

Dans ce premier cas pratique, on cherche à évaluer le lien entre montant total du crédit et caractère variable du taux d’intérêt à l’aide d’une régression logistique simple: \[\mathbb{P}(taux\_variable_i|montant_i) = \beta_0 + \beta_1 montant_i + \varepsilon_i\]

  1. Assignez une bibliothèque au répertoire dans lequel se situe le fichier m_contran.sas7bdat et copiez la table dans la WORK. Repérez dans la table les variables renseignant sur le montant du crédit ainsi que sur le caractère variable du taux d’intérêt et utilisez les outils de la statistique descriptive pour analyser leur distribution. Créez la variable txvar dichotomique qui indique si le taux d’intérêt est variable (1) ou non (0).

     

  2. Soumettez le code:

    PROC LOGISTIC DATA = m_contran;
      MODEL txvar = mt_crdt;
    RUN;

    Parcourez la sortie de SAS pour déterminer la modalité de la variable txvar qui est modélisée par défaut. Utilisez l’option DESC pour corriger ce problème.

     

  3. Repérez dans les sorties produites par SAS le tableau comportant les paramètres estimés par le modèle. Quel est le signe du coefficient associé à la variable mt_crdt et comment l’interprétez-vous ? Que pouvez-vous dire de sa valeur ?

     

  4. Rappelez l’hypothèse nulle et l’hypothèse alternative du test de significativité du coefficient \(\beta_1\) associé à la variable mt_crdt. Quelles sont les valeurs de la statistique et de la p-valeur associées à ce test ? Menez ce test au seuil de 5 % puis de 1 %, d’abord en utilisant la p-valeur puis en comparant la valeur de la statistique de test aux quantiles d’une loi du \(\chi^2\) à 1 degré de liberté.

     

  5. Utilisez l’option CLPARM pour afficher les intervalles de confiance à 95 % des coefficients. Recalculez celui associé à la variable mt_crdt manuellement à partir des éléments des questions précédentes. Menez sur cette base une dernière fois le test de significativité du coefficient de la variable mt_crdt au seuil de 5 %.

     

 

Cas pratique 1.2 Régression logistique multiple : Caractéristiques des crédits avec un taux d’intérêt variable

Dans ce deuxième cas pratique, on cherche à généraliser les résultats obtenus précédemment en estimant un modèle plus complet comportant la catégorie d’instrument financier (variable categh) et la durée initiale du crédit (variable duree_in).

  1. Quelle est la nature de la variable categh? Menez une analyse univariée de cette variable. Quelles conséquences cela a-t-il sur la manière d’intégrer cette variable à la régression logistique (comme à toute régression d’ailleurs) ?

     

  2. Dichotomisez manuellement cette variable et ajoutez-la au modèle précédent en prenant la modalité tresor comme référence (sans ajouter duree_in pour l’instant). Comparez vos résultats à ceux obtenus en soumettant le code:

    PROC LOGISTIC DATA = m_contran;
      CLASS categh;
      MODEL txvar (DESC) = mt_crdt categh;
    RUN;

    D’où provient la différence selon vous et comment la corrigeriez-vous ?

     

  3. Comment interprétez-vous les coefficients associés aux deux modalités de la variable categh figurant dans le tableau de résultat ? Utilisez l’option REF de l’instruction CLASS pour modifier la modalité de référence et la placer sur immobi. Quels changements dans les résultats cela induit-il ?

     

  4. Ajoutez la variable duree_in dans le modèle et repérez parmi les tableaux de résultat celui permettant de re-calculer la log-vraisemblance du modèle. Comparez-la à celle du modèle logistique simple estimé dans le cas pratique 1.1 Comment interprétez-vous cet écart ?

     

  5. Utilisez l’instruction OUTPUT pour récupérer dans une table les probabilités prédites par le modèle. Utilisez des indicateurs de statistique descriptive pour comparer ces probabilités à la variable txvar. Le modèle vous semble-t-il de bonne qualité à l’aune de ces éléments ?

     

Partie 2 : Interpréter un modèle logistique dichotomique

 

Cas pratique 1.3 Indicateurs de qualité du modèle

L’objectif de ce cas pratique est de comparer la qualité d’ajustement de différentes modélisations de la probabilité que le taux d’intérêt d’un crédit soit variable. En particulier, on considère les modèles : \[m1\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \varepsilon_i\] \[m2\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \beta_2 immobi_i + \beta_3 tresor_i + \varepsilon_i\] \[m3\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \beta_2 immobi_i + \beta_3 tresor_i + \beta_4 duree\_in_i + \varepsilon_i\] \[m4\ :\ taux\_variable_i = \beta_0 + \beta_1 montant_i + \beta_2 immobi_i + \beta_3 tresor_i + \beta_4 duree\_in_i + \beta_5 gar_i + \varepsilon_i\]gar est la variable indiquant si le crédit fait l’objet d’un garantie ou non.

  1. Construisez un tableau dans lequel vous reportez la log-vraisemblance, l’AIC et le SC associés à ces quatre modèles. Commentez l’évolution de ces trois indicateurs.

     

    1. Dans le modèle m4, interprétez le test par le ratio de vraisemblance de nullité jointe de l’ensemble des paramètres du modèle.

    2. Interprétez également le test de nullité jointe de tous les coefficients associés à la variable qualitative polytomique categh (effets de Type III). Comparez les statistiques de test et les p-valeurs associés aux autres variables du modèle dans le tableau “Effets de Type III” à celles accompagnant l’estimation des coefficients : que constatez-vous et comment l’expliquez-vous?

     

  2. Interprétez le pourcentage de concordance du modèle m4 et construisez sa courbe ROC. Sélectionnez un point de cette courbe et interprétez son abscisse et son ordonnée en termes de spécificité et de sensibilité.

     

  3. Utilisez plusieurs instructions ROC dans la PROC LOGISTIC pour comparer les courbes ROC des quatre modèles ainsi que leurs indicateurs de qualité. Que pensez-vous de l’impact de l’ajout des différentes variables sur les propriétés prédictives du modèle ?

     

 

Cas pratique 1.4 Odds-ratio et effets marginaux

  1. Interprétez les odds-ratio associés aux modalités des variables qualitatives du modèle m4, à savoir categh et gar. Reformulez à partir des odds-ratio le test de significativité de l’association entre une variable explicative et la variable expliquée et utilisez l’intervalle de confiance à 95 des odds-ratio pour mener ce test au seuil de 5 %.

     

  2. Utilisez la macro-fonction %INCLUDE pour charger le code SAS logistic_marginal.sas. Utilisez la macro %logistic_marginal pour calculer l’effet marginal moyen associé aux modalités des deux variables qualitatives du modèle m4 (inspirez-vous de l’exemple présenté dans le support). Comment interprétez-vous ces quantités?

     

  3. Présentez (avec Word par exemple) les résultats du modèle m4 sous la forme qui vous semble la plus appropriée (libellés des variables, coefficients avec ou sans étoiles, odds-ratio, effets marginaux moyens pour les variables qualitatives, etc.).

 

Cas pratique 1.5 Variables croisées

Dans le dernier cas pratique de cette partie, on aborde la question des variables d’interaction et de leur interprétation. En particulier, on va chercher à répondre à deux questions spécifiques :

  • la relation entre le fait que le crédit soit garanti et la probabilité d’être à taux fixe est-elle la même pour toutes les catégories d’instrument financier (trésorerie, investissement et immobilier)?
  • la relation entre durée du crédit et probabilité d’être à taux fixe est-elle la même pour toutes les catégories d’instrument financier?
  1. Construisez manuellement (dans une étape DATA) la variable croisée à intégrer dans un modèle susceptible d’apporter des éléments de réponse à la première des deux questions. Estimez ce modèle.

     

  2. Comment interprétez-vous le signe et la significativité des coefficients associés à cette variable croisée ? Changez la modalité de référence pour être en mesure d’interpréter la significativité des écarts entre les coefficients de plusieurs modalités de cette variable.

     

  3. Ecrivez le modèle qui permette, en introduisant des interactions entre durée du crédit et catégorie d’instrument financier, d’apporter des éléments de réponse à la seconde question. Utilisez l’opérateur * dans l’instruction MODEL pour que SAS construise automatiquement les variables croisées correspondantes.

     

  4. Comment interprétez-vous le signe et la significativité des coefficients associés aux variables correspondant au croisement ? À nouveau modifiez les modalités de référence pour tester les relations entre plusieurs paires de coefficients (pris deux-à-deux).

     

  5. (Complément) Comment dans ce contexte testeriez-vous le caractère statistiquement significatif de la relation entre durée initiale du crédit et probabilité d’être à taux variable pour les crédits immobiliers? Ecrivez le modèle contraint correspondant à ce test et menez-le à bien en utilisant l’instruction TEST de la PROC LOGISTIC.

Partie 3 : Adapter la spécification du modèle aux données

 

Cas pratique 1.6 Modélisation gamma du montant du crédit

On estime un modèle gamma avec fonction de lien logarithmique pour chercher à expliquer le montant d’un crédit en fonction de la catégorie d’instrument financier, de la durée initiale et de la présence ou non d’une garantie.

  1. Pourquoi recourir à une régression gamma pour modéliser la variable de montant du crédit plutôt qu’à une régression linéaire classique? Fournissez des éléments empiriques à l’appui de votre réponse.

     

  2. Utilisez la PROC GENMOD pour estimer le modèle souhaité. Sur le base de l’analyse des effets de Type III, que pensez-vous de la pertinence des variables intégrées dans le modèle ? Interprétez les coefficients en termes d’écart moyen en pourcentages.

     

  3. Comment interprétez-vous en particulier la valeur du coefficient associé à la modalité tresor de categh? Vérifiez par une analyse bivariée que le modèle est bien cohérent avec les données sous-jacentes (et qu’il n’y a pas d’erreur de code !).

     

  4. Réestimez le modèle en laissant de côté les 5 valeurs les plus élevées de mt_crdt, puis les 5 % de valeurs les plus élevées de mt_crdt. Cela modifie-t-il substantiellement les résultats de la modélisation?

Cas pratiques à partir de l’enquête PISA 2012


Nota bene Les instructions des cas pratiques de cette partie sont volontairement moins directives : ils doivent vous permettre de davantage expérimenter sur des données différentes de celles de la table M_CONTRAN. Selon le rythme de progression de chacun, ces cas pratiques ont vocation à être traités pendant ou à l’issue de la formation.


L’enquête Pisa () est une enquête réalisée tous les trois ans par l’Organisation de coopération et de développement économique (OCDE) dans une soixantaine de pays auprès des élèves de 15 ans (quelle que soit leur classe au moment de l’enquête).

Elle vise à mesurer les acquis des élèves de 15 ans dans trois disciplines : mathématiques, compréhension de l’écrit (ou littératie) et sciences. En plus des scores aux tests standardisés de mathématiques, compréhension de l’écrit et sciences, cette enquête comporte de très nombreuses informations sur l’origine sociale des élèves, leurs conditions d’enseignement ainsi que leur rapport aux enseignants et à l’école.

Les données nécessaires sont disponibles ici et les questionnaires adressés aux élèves et aux établissements ici. L’ensemble a été librement téléchargé à partir de cette page.

Variable Description
cnt Pays
stidstd Identifiant de l’élève
schoolid Identifiant de l’établissement
w_fstuwt Poids de sondage final de l’élève
st01q01 Classe en nombre d’années depuis l’entrée en primaire: la 10\(^{ème}\) classe correspond à la seconde en France.
st04q01 Sexe : (1) Femme (2) Homme
st05q01 A suivi une scolarité pré-primaire (1) Non (2) Oui, un an ou moins (3) Oui, plus d’un an
st07q01 st07q02 st07q03 A redoublé à un moment de sa scolarité : (1) Non (2-3) Oui, une ou plusieurs fois
st08q01 Est arrivé en retard au cours des deux semaines précédant l’enquête
st09q01 A séché les cours au cours des deux semaines précédant l’enquête
anxmat Score synthétique d’anxiété en mathématiques
disclima Score synthétique de climat de discipline dans la classe
escs Indicateur synthétique de statut économique, social et culturel
immig Immigration : (1) Né en France de parents nés en France (2) Immigré de deuxième génération (3) Immigré de première génération
hisced Niveau d’étude le plus élevé des parents (nomenclature CITE)
pv1math Score synthétique à l’évaluation de mathématiques
pv1read Score synthétique à l’évaluation de compréhension de l’écrit
pv1scie Score synthétique à l’évaluation de sciences
sc01q01 Statut public ou privé de l’établissement (1) public (2) privé
sc03q01 Taille de la commune de l’établissement : (1) Village (2) Small town (3) Town (4) City (5) Large city
sc05q01 Taille de la classe en cours de français : (01) 15 ou moins (02) 16-20 (03) 21-25 … (08) 46-50 (09) Plus de 50 élèves

 

Cas pratique 2.1 Analyse multivariée du retard scolaire

Cette première proposition de cas pratique vise à rechercher quelques déterminants du retard scolaire (au sens du fait d’avoir redoublé à un moment ou à un autre au cours de scolarité), parmi lesquels notamment : le sexe, le fait d’avoir suivi une scolarité pré-primaire, le statut économique, social et culturel, le niveau d’études le plus élevé des parents, le statut public ou privé de l’établissement, la taille de la classe en cours de français, etc.

  1. Les variables st07q01, st07q02 et st07q03 renseignent sur le fait d’avoir redoublé (1 : Non, 2 : Une fois, 3 : Plus d’une fois) à plusieurs moments de la scolarité:

    • st07q01: au cours de la primaire (ISCED 1);
    • st07q02: au cours du collège (ISCED 2);
    • st07q03: au cours du lycée (ISCED 3).

    Construisez une variable synthétisant le fait qu’un élève ait, à un moment ou à un autre de sa scolarité, redoublé une ou plusieurs fois.

     

    1. Analysez la distribution des variables de sexe, de scolarisation pré-primaire et de statut social, économique et culturel.

     

    1. Utilisez ensuite les outils de la statistique bivariée pour mettre en évidence une éventuelle relation entre chacune de ces variables prise indépendamment et le retard scolaire.

     

    1. Intégrez enfin l’ensemble de ces variables dans un modèle de régression logistique multiple : jugez de la qualité de la modélisation, interprétez le signe et la significativité des coefficients et réexprimez les coefficients des variables qualitatives en termes d’odds-ratio ou d’effets marginaux moyens.

     

  2. On s’intéresse tout particiculièrement à la variable immig codant l’origine migratoire des élèves (et qui distingue les individus immigrés de première ou de deuxième génération).

    1. Recodez cette variable en deux modalités (“Né en France de parents nés en France” versus “Immigré ou enfant d’immigré”) et intégrez-la comme seul variable explicative du retard scolaire dans une régression logistique simple.

     

    1. Intégrez ensuite le statut social, économique et culturel ainsi que le fait d’avoir suivi une scolarité pré-primaire. Que constatez-vous quand à l’évolution du coefficient associé au fait d’être immigré ou enfant d’immigré entre les deux modèles ? Comment comprenez-vous ce phénomène ?

     

 

Cas pratique 2.2 Analyse multivariée de l’anxiété en mathématiques

La variable anxmat est un indicateur synthétique de l’anxiété vis-à-vis des mathématiques. On cherche ici à identifier certains déterminants de l’anxiété en mathématiques chez les élèves particulièrement anxieux.

  1. Menez l’analyse univariée de la variable anxmat. Que constatez-vous quant aux non-réponses ? Recodez cette variable de façon à isoler les élèves particulièrement anxieux en mathématiques (score d’anxiété supérieur au troisième quartile de la distribution).

     

  2. Menez une régression logistique multivariée sur l’anxiété en mathématiques, en cherchant à répondre à plusieurs questions :

    • Garçons et filles sont-ils également anxieux en mathématiques ?
    • Les élèves en retard scolaire sont-ils davantage anxieux que les autres ?
    • Établissements publics et privés diffèrent-ils sensiblement dans le niveau d’anxiété de leurs élèves en mathématiques ?
    • Comment les performances en mathématiques sont-elles liées à l’anxiété vis-à-vis de cette matière?
    • Sexe et performances en mathématiques interagissent-ils pour expliquer le niveau d’anxiété dans cette matière ?