06 Mar Régressions linéaires
- Lorsque la variable à expliquer est quantitative continue, le modèle statistique adapté est la régression linéaire
- Lorsqu’il n’existe qu’une seule variable explicative et qu’elle est qualitative, la régression linéaire donne un résultat proche d’un test T de Welch ou de Student
Par exemple, si on souhaite expliquer la taille d’un enfant en fonction de la taille de sa mère, Y est la taille de l’enfant et X la taille de la mère.
A quoi ça sert
Les tests statistiques classiques (test du Student, test du Chi2 pour les plus utilisés en médecine) permettent de déterminer si les différences observées entre 2 groupes ou plus peuvent être la conséquence du hasard par fluctuation d’échantillonnage (on dit alors que l’hypothèse nulle d’absence de différence ne peut pas être rejetée) ou bien si une telle différence ne peut être due au hasard (rejet de l’hypothèse nulle).
Ces tests univariables, posent un problème majeur : ils ne prennent pas en compte les potentiels facteurs de confusion. Or ceux-ci sont fréquents en médecine. Il est donc nécessaire de recourir à des méthodes statistiques plus complexes, qu’on appelle des modèles statistiques de régression (Wikipedia), permettant de réaliser des analyses multivariables.
Ainsi, il est possible de tester chacun des facteurs X pouvant avoir une influence sur la variable Y, et de leur donner un poids (ou un coefficient).
Les conditions de validité
Il existe toujours des conditions de validité pour les modèles statistiques. Si vous souhaitez en savoir plus, nous vous invitons à consulter l’article suivant.
Les facteurs de confusion
L’association significative trouvée par le test serait due à la fois à l’association statistique entre tabagisme et cancer, et à la fréquence de consommation du café plus fréquente chez les fumeurs, constituant donc un fameux biais de confusion.
Comment réaliser des régressions linéaires avec pvalue.io
Laissez-vous guider par l’interface intuitive du logiciel.
- Choisissez de réaliser une analyse explicative
- Sélectionnez la variable que vous souhaitez expliquer (Y) et les facteurs connus pour avoir une influence sur la variable à expliquer (X)
- Vérifiez qu’il n’y a pas d’erreurs d’après l’analyse descriptive (en regardant les graphiques et les tableaux générés)
- Transformez les variables qui ne sont pas liées linéairement à la variable à expliquer
Si les conditions d’application de la régression linéaire ne sont pas respectées, pvalue.io vous indiquera si une action de votre part est nécessaire.
Interprétation des résultats
Les coefficients
Variable quantitative
Les coefficients représentent la variation de Y lorsque la valeur de X augmente de 1 unité.
Variable qualitative
Les coefficients représentent la variation de Y lorsque la variable qualitative prend la valeur de la classe (par rapport à la classe de référence)
Les p-values
Il est classique de fixer à 5% le risque de première espèce (appelé également risque alpha) : il correspond au risque qu’on prend a priori de conclure à tort qu’un coefficient au moins aussi élevé ne soit pas dû au hasard. Autrement dit, c’est le risque de conclure à tort que les résultats obtenus ne peuvent pas être dus au hasard.
Le petit p (p-value) est calculé a posteriori et correspond à la probabilité qu’on a d’observer un coefficient au moins aussi élevé uniquement en raison du hasard.
Ainsi lorsque le petit p (appelé également degré de significativité) est inférieur au risque alpha, on rejette l’hypothèse nulle de nullité du coefficient.
Lorsqu’une variable catégorielle (qualitative) comporte plus de 2 classes, il est possible de calculer un petit p global à la classe; ce petit p correspond au test de la nullité du coefficient lorsque la catégorie n’est pas celle de référence.
Dans le tableau ci-dessous, nous voulions savoir si le poids de l’enfant à la naissance était corrélé à l’âge de la mère (Age madame), au sexe de l’enfant, au rang de la grossesse et au fait qu’il ait une malformation.
Estimation [IC 95%] | p | p global | ||
---|---|---|---|---|
Age madame | 4.45 [-0.152, 9.0] | 0.058 | ||
Sexe | M vs F | 138 [100, 180] | <0.001 | |
Rang grossesse | gemellaire vs unique | -285 [-335, -234] | <0.001 | <0.001 |
triple vs unique | -442 [-589, -295] | <0.001 | ||
Malformation | oui vs non | -71.4 [-138, -4.87] | 0.035 |
Nous concluons ainsi :
- L’âge de la mère n’influence pas le poids de l’enfant (p > 0.05); pour chaque année supplémentaire, le poids de l’enfant augmente de 4.45g, avec un intervalle de confiance comprenant 0 : [-0.152, 9.0]
- Le fait d’être un garçon augmente significativement le poids de l’enfant (+138g [100, 180])
- Une grossesse gémellaire diminue significativement le poids de l’enfant (-235g [-335, -234]) par rapport à une grossesse unique
- Une grossesse triple diminue significativement le poids de l’enfant (-442g [-589, -295]) par rapport à une grossesse unique
- Globalement, avoir une grossesse multiple a pour conséquence un poids plus faible chez l’enfant (p global <0.001)
- Avoir une malformation diminue significativement le poids de l’enfant (-71.4g [-138, -4.87])
Aucun commentaire