Les données manquantes – 2ème partie

Cette page a pour objectif de décrire les choix méthodologiques concernant les choix faits sur pvalue.io. Cette page est technique, et s’adresse aux utilisateurs se questionnant sur la gestion des données manquantes. Elle est la suite logique de cette page. Le code R correspondant est disponible ici.

Lorsqu’une analyse explicative ou prédictive est réalisée, les données manquantes sont imputées de la manière suivante :

  • Si moins de 5% de l’échantillon contient au moins une donnée manquante, celles-ci ne sont pas imputées, c’est ce qu’on appelle une complete case analysis.
  • Si plus de 5% de l’échantillon contient au moins une donnée manquante :
    • Si une variable contient moins de 20% de données manquantes, on réalise une imputation multiple par équation de chaine (MICE).
    • Si une variable contient plus de 20% de données manquantes, elle ne peut pas être introduite dans un modèle statistique

Il fait ensuite appel à un algorithme itératif : tant qu’il y a plus de 20% d’observations ayant au moins une donnée manquante, suppression de la variable ayant le plus grand nombre de valeurs manquantes. Un algorithme itératif repère les variables les plus génératrices de données manquantes et les supprime.

L’Imputation Multiple par Équation de Chaîne (MICE)

Elle est réalise à l’aide du package mice de R, avec une graine (seed) fixée à 1234567 (de manière à rendre les résultats reproductibles). Le nombre d’imputations dépend de la proportion de données manquantes [1]. Par exemple s’il y a 15% d’observations avec au moins une donnée manquante, il y aura 15 imputations.

Définition des variables auxiliaires

Les variables auxiliaires servent à améliorer le processus d’imputation des données manquantes. pvalue les identifie en créant une variable « donnée manquante », vraie si le patient a une donnée manquante parmi l’ensemble des variables utilisées pour réaliser le modèle statistique, et fausse dans le cas contraire. Il réalise une validation croisée en 10 fois d’une régression logistique pénalisée de type LASSO. On obtient alors plusieurs paramètres de pénalisation λ. La valeur par défaut que pvalue.io utilise est la valeur de λ qui minimise l’erreur de validation.

Résultats

Le résultat global du modèle est obtenu en regroupant les résultats de chacune des imputations.

Les résultats des p-value des variables présentant plus de 2 catégories sont obtenus en réalisant :

  • Pour les régressions linéaires et logistiques, le test multivarié de Wald (D1) [2]
  • Pour les modèles de Cox, une combinaison des statistiques de tests (D2) [3]

 

 

Références

[1] White, I. R., P. Royston, and A. M. Wood. 2011. “Multiple Imputation Using Chained Equations: Issues and Guidance for Practice.” Statistics in Medicine 30 (4): 377–99.

[2] Li, K. H., Raghunathan, T. E. & Rubin, D. B. Large-Sample Significance Levels from Multiply Imputed Data Using Moment-Based Statistics and an F Reference Distribution. Journal of the American Statistical Association 86, 1065–1073 (1991).))((Reiter, J. P. Small-Sample Degrees of Freedom for Multi-Component Significance Tests with Multiple Imputation for Missing Data. Biometrika 94, 502–508 (2007).

[3] Multiple Imputation for Nonresponse in Surveys. (John Wiley & Sons, Inc., 1987). doi:10.1002/9780470316696))((Li, K.-H. et al, D. B. SIGNIFICANCE LEVELS FROM REPEATED p-VALUES WITH MULTIPLY-IMPUTED DATA. Statistica Sinica 1, 65–92 (1991).

Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.