04 Avr Vérification des conditions d’application – 2ème partie
Dans cet article, nous allons préciser les choix méthodologiques faits pour vérifier les conditions d’application, ou conditions de validité. C’est un article qui s’adresse aux statisticiens; le code permettant les vérifications graphiques, de la normalité et l’homoscédaticité est open source.
Les splines
2 types de splines sont utilisées dans pvalue.io :
- Les représentations graphiques utilisées pour déterminer s’il existe un lien linéaire ou log-linaire entre la variable à expliquer et les variables explicatives. C’est ce que nous allons notamment traiter dans cet article.
- Les splines servant à modéliser une variable explicative quantitative, quand la condition de linéarité ou de log-linéarité n’est pas vérifiée, ou bien qu’on souhaite modéliser une variable accessoire.
Les splines pour vérifier la linéarité ou la log-linéarité
Dans le cadre des régressions, nous réalisons un modèle additif généralisé à l’aide de la fonction gam()
du package mgcv
de R. Nous remplaçons chaque variable quantitative x
par une spline de cette variable, à l’aide de la fonction pspline(x)
pour un modèle de Cox, et s(x, k = 4)
pour les régressions linéaires et logistiques.
Nous affichons sur le même graphique la droite correspondant au coefficient de régression. pvalue.io propose alors à l’utilisateur de transformer la variable si cette droite ne passe pas entre les intervalles de confiance de la représentation spline.
Vérification des risques proportionnels
L’hypothèse des risques proportionnels est nécessaire pour réaliser un modèle de Cox. Une manière classique de la vérifier est de représenter graphiquement les résidus de Schoenfeld standardisés pour chaque terme du modèle. La courbe de régression lissée des résidus de Schoenfeld représente les coefficients des termes du modèle en fonction du temps.
pvalue.io affiche cette courbe à l’aide de la fonction plot(cox.zph())
, ainsi que la droite du coefficient de régression si celui-ci était constant. Si cette droite sort de l’intervalle de confiance de la courbe des résidus de Schoenfeld, l’hypothèse des risques proportionnels n’est pas vérifiée.
Vérification de la normalité
On considère qu’une distribution suit une loi normale lorsque la moyenne est comprise entre le 40ème et le 60ème percentile et qu’au moins 50% des valeurs sont comprises entre le 25ème et le 75ème percentile.
Vérification de l’homoscédaticité
Selon le nombre d’observation, les valeurs prédites sont d’abord regroupées par quantiles. Le quantile dépend du nombre d’observations : 2 classes pour moins de 40 observations, terciles entre 40 et 60, quartiles entre 60 et 80 et quintiles pour plus de 80 observations. Chaque résidu est donc associé à une classe de valeur prédite.
On calcule ensuite la variance des résidus pour chaque classe de valeur prédite. Si la variance maximale est inférieure à 3 fois la variance minimale, les résidus sont considérés homoscédatiques, et hétéroscédatiques dans le cas contraire.
Aucun commentaire