Traitement des covariables

Cette page a pour objectif de décrire les choix méthodologiques concernant à la fois la sélection des variables et leur modélisation. Cette page est technique. Le code R correspondant aux descriptions ci-dessous est disponible ici.

Sélection des variables

Définitions

Nous faisons la distinction entre deux types de covariables (variables introduites dans un modèle mais n’étant pas la variable explicative principale) :

  1. Les variables explicatives ou prédictives suivant l’objectif de l’analyse qui ont une signification clinique, et qui sont considérées comme des variables de confusion dans la littérature
  2. Les variables accessoires pour lesquelles il existe un lien statistique avec la variable à expliquer

Dans le cadre des analyses explicatives, pvalue.io affiche les résultats des variables explicatives car on peut être intéressé par quantifier l’effet de chaque variable explicative sur la variable à expliquer. En revanche, ce n’est pas le cas pour les variables accessoires, qui sont des variables que nous souhaitons simplement introduire dans le modèle statistique de manière à améliorer ses performances, sans pour autant quantifier le lien statistique entre cette variable accessoire et la variable à expliquer. Pour les analyses prédictives, pvalue.io affiche les résultats des covariables quelque soit leur type.

Processus de sélection de variables

Afin de sélectionner les variables accessoires, pvalue.io fait appel à un modèle de type LASSO entre la variable à expliquer (ou à prédire) et les variables explicatives (ou prédictives). Il détermine d’abord le nombre maximal de covariables. Il force les variables explicatives à ne pas être pénalisées.

Il réalise une validation croisée en 10 fois d’un modèle LASSO adapté aux données à modéliser (régressions linéaires, logistiques et modèle de Cox). On obtient alors plusieurs paramètres de pénalisation λ. La valeur par défaut que pvalue.io utilise est la valeur la plus grande de λ pour laquelle l’erreur de validation croisée est à 1 erreur standard de l’erreur de validation croisée minimale. Si en utilisant ce paramètre, le nombre de coefficients non nuls est inférieur au nombre maximal de covariables on garde ce paramètre. Dans le cas contraire, on choisit la valeur la plus élevée de λ qui fournisse un nombre de coefficients égal au nombre maximal de covariables.

Des vérifications de la faisabilité du modèle sont ensuite réalisées. Afin de respecter les conditions de validité des modèles statistiques, l’algorithme supprime les covariables qui présentent une multicolinéarité déterminée si le VIF (Variance Inflation Factor) est supérieur à 5.

Utilisation des covariables dans les modèles statistiques de régression

L’utilisateur de pvalue.io vérifie la (log)linéarité de toutes les covariables quantitatives. Si elle n’est pas respectée, une transformation est proposée à l’utilisateur :

  • Si des seuils sont déterminés dans la littérature ou bien que l’utilisateur souhaite un découpage en quantiles, alors, on transforme la variable quantitative en variable qualitative.
  • Dans le cas contraire
    • Si l’analyse est explicative,
      • Les variables explicatives sont transformées en variables qualitatives par l’utilisateur (aux positions indiquées par l’utilisateur), car dans ce cas l’interprétation du coefficient est nécessaire
      • Les variables accessoires subissent une transformation spline cubique naturelle (aux positions indiquées par l’utilisateur). En effet, cette transformation permet une meilleure performance du modèle qu’une transformation en variable qualitative. Cela a pour conséquence de rendre ininterprétable les coefficients des modèles statistiques. Cependant, le but d’une variable accessoire n’est pas d’obtenir une quantification de l’effet de cette variable, mais d’améliorer la qualité du modèle. L’interprétation de ce lien n’est pas donc pas nécessaire.
    • Si l’analyse est prédictive, les covariables subissent une transformation spline cubique naturelle quelque soit leur type. En effet, pour ce type d’analyse, la performance du modèle est plus importante que son interprétation.

Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.