25 Nov Comment effectuer une analyse explicative multivariable lorsqu’on a un effectif trop faible
Il est parfois surprenant de ne pouvoir réaliser une analyse explicative multivariable en raison d’un effectif trop faible alors que le fichier comporte plusieurs centaines d’observations (patients, sujets).
Cas des régressions linéaires
Pour les régressions linéaires, c’est-à dire-les analyses explicatives pour lesquelles la variable à expliquer est numérique, il est nécessaire avoir au moins 10 observations par covariable.
Petite subtilité, lorsque la covariable est catégorielle à N classes, elle compte comme N-1 variables. Pour exemple, prenons la variable catégorielle « satisfaction » comportant les 5 classes suivantes :
- Pas du tout satisfait
- Plutôt pas satisfait
- Moyennement satisfait
- Plutôt satisfait
- Très satisfait
Lorsqu’on utilise cette variable dans un modèle statistique, elle est automatiquement recodée en 4 variables binaires, valant chacune 0 ou 1.
Satisfaction | Très satisfait | Plutôt satisfait | Moyennement satisfait | Plutôt pas satisfait |
Très satisfait | 1 | 0 | 0 | 0 |
Plutôt pas satisfait | 0 | 1 | 0 | 0 |
Moyennement satisfait | 0 | 0 | 1 | 0 |
Plutôt pas satisfait | 0 | 0 | 0 | 1 |
Pas du tout satisfait | 0 | 0 | 0 | 0 |
Cas des régressions logistiques et des analyses de survie
Pour les régressions logistiques et pour les analyses de survie, c’est-à-dire lorsque la variable à expliquer est binaire, c’est un tout petit peu plus complexe. Il faut en effet qu’il y ait au moins 10 observations par covariable, mais attention, ce n’est pas calculé sur l’effectif total, mais sur l’effectif pour lequel la variable à expliquer vaut 0 et pour lequel la variable à expliquer vaut 1.
Ainsi, si l’effectif est de 179 patients, répartis ainsi : 29 patients avec Y = 0 et 150 avec Y = 1, le nombre maximal de covariables est de 2.
Chelly
Posté à 00:38h, 31 aoûtBonjour, auriez-vous un article (pour citation en référence bibliographique) qui démontre/établit qu’il est nécessaire d’avoir au moins 10 observation par variable explicative ?
Bien cordialement
Dr Jonathan Chelly
Kevin
Posté à 15:34h, 31 aoûtBonjour,
celui qui pose les fondations de cet argumentaire est l’article suivant :
Peduzzi, P., Concato, J., Kemper, E., Holford, T. R. & Feinstein, A. R. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 49, 1373–1379 (1996).
Bien cordialement