Choix automatique du test

Cette page a pour objectif de décrire les choix méthodologiques concernant les tests réalisés sur pvalue.io. Cette page est technique, et s’adresse aux utilisateurs se questionnant sur les raisons pour lesquels un test est pratiqué plutôt qu’un autre. Le code R correspondant est disponible ici.

Test univariable

Le test réalisé dépend du type de variable à expliquer Y, et de variable explicative X.

Test non apparié (mesures indépendantes)

Y est Qualitative à 2 catégories

  • Si la variable X est quantitative
    • si la distribution de X est normale* ou l’effectif est supérieur à 30 dans les 2 classes: le test réalisé est le test T de Welch. On utilise le test T de Welch car celui-ci est plus robuste à un déséquilibre des variances que le test T de Student, pour une puissance quasiment similaire[1].
    • sinon test non paramétrique de Mann-Whitney
  • Si la variable X est qualitative
    • si l’effectif théorique dans chaque case du tableau de contingence est supérieur à 5 : test du Chi2
    • sinon test de Fisher
      • test exact si X comporte 2 catégories
      • sinon : test de Fisher dont le p est obtenu par une simulation de Monte-Carlo avec 100 000 itérations.
  • Si on réalise des analyses de survie, le test réalisé est un test du Log-rank

Y est Qualitative à plus de 2 catégories

  • Si la variable X est quantitative
    • si la distribution de X est normale* ou l’effectif est supérieur à 30 dans toutes les classes et qu’il y a une homoscédaticité : ANOVA
    • sinon test de Kruskal-Wallis
  • Si la variable X est qualitative
    • si l’effectif théorique dans chaque case du tableau de contingence est supérieur à 5 : le test réalisé est le chi2
    • sinon test de Fisher, dont le p est obtenu par une simulation de Monte-Carlo avec 100 000 itérations.

Y est Quantitative

  • Si la variable X est quantitative
    • si la distribution de X et de Y sont normales* ou l’effectif est supérieur à 30 et qu’il y a une homoscédaticité : coefficient de corrélation de Pearson
    • sinon coefficient de corrélation Rho de Spearman
  • Si la variable X est qualitative à deux classes
    • si la distribution de X est normale* ou l’effectif est supérieur 30 pour les deux classes: le test réalisé est le test T de Welch
    • sinon test non paramétrique de Mann-Whitney
  • Si la variable X est qualitative à plus de deux classes
    • si la distribution de X est normale* ou l’effectif est supérieur à 30 pour toutes les classes et qu’il y a une homoscédaticité : ANOVA
    • sinon test non paramétrique de Kruskal-Wallis

Test apparié (2 mesures chez un même patient)

X est Qualitative

  • Test de McNemar :
    • Si X est comporte 2 catégories : test exact de McNemar
    • Si X comporte plus de 2 catégories : test de McNemar-Bowker

X est Quantitative

  • Si la distribution de X est normale* ou l’effectif est supérieur à 30 pour les deux mesures: le test réalisé est le test T de Welch apparié
  • Sinon test non paramétrique de Mann-Whitney apparié

Modèles multivariables

Le choix du modèle multivariables dépend de la variable indépendante Y :

  • Si la variable Y est quantitative, un modèle de régression linéaire est réalisé
  • Si la variable Y est qualitative à deux classes
    • si analyse de survie, le modèle réalisé est le modèle de Cox
    • sinon, un modèle de régression logistique est réalisé
  • Si la variable Y est qualitative à plus de deux classes : pas d’analyse possible

* pvalue.io considère que  la distribution est normale lorsque 1) la moyenne de cette distribution est comprise entre le 40ème et le 60ème percentile de la distribution et 2) la valeur d’asymétrie (skewness) est inférieure à 0.6.

[1] 1.Welch, B. L. The generalisation of student’s problems when several different population variances are involved. Biometrika 34, 28–35 (1947).

Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.