11 Sep Les modèles statistiques
Le code R définissant la logique définie ci-après est disponible sur cette page du package simplestats et celle-là.
Points communs
Les données ordinales sont traitées comme des variables qualitatives.
Les variables accessoires quantitatives non sélectionnées par l’utilisateur, mais identifiées par le logiciel comme ayant un lien statistique sont ajoutées dans le modèle par une transformation spline cubique naturelle (fonction ns()
de R).
Si une variable qualitative a été codée numériquement, sa classe de référence est le nombre le plus faible. Si c’est une chaîne de caractères, sa classe de référence est la catégorie avec le plus d’observations. Il est possible de modifier cet ordre en changeant l’ordre des barres lors de l’analyse descriptive.
Régressions linéaires
Les modèles linéaires sont obtenus par la fonction lm()
du logiciel R. Pour une variable qualitative à plus de 2 classes, une p-value est calculée pour chaque classe par rapport à la référence à l’aide d’une ANOVA et un test F.
Une fois le modèle obtenu, une analyse des résidus studentisés est réalisée :
- Analyse de l’homoscédaticité : selon le nombre d’observation, les résidus sont répartis en catégories, de manière à ce que le nombre de résidus soit identique dans chaque catégorie; 2 catégories pour moins de 40 observations, 3 catégories entre 40 et 60, 4 catégories entre 60 et 80 et 5 catégories pour plus de 80 observations. On calcule ensuite la variance des résidus dans chaque catégorie. Si la variance maximale est inférieure à 3 fois la variance minimale, les résidus sont considérés homoscédatiques. En cas d’hétéroscédaticité, les résultats de l’analyse statistique ne sont pas affichés.
- Analyse de la distribution des résidus : on considère que la distribution des résidus suit une loi normale lorsque la moyenne est comprise entre le 40ème et le 60ème percentile et qu’au moins 50% des résidus sont compris entre le 25ème et le 75ème percentile. Si la distribution des résidus ne suit pas une loi normale, une analyse par bootstrap non paramétrique est réalisée.
Rééchantillonage avec remise (bootstrap)
Le nombre de rééchantillonnages est défini en fonction du nombre d’observation, arrondi au millier supérieur. Des régressions linéaires sont réalisées pour chaque réplication. Si le modèle initial a bénéficié d’une imputation multiple des données manquantes, c’est le premier jeu de données imputées qui est rééchantillonné.
Calcul des intervalles de confiance
Si le nombre d’observation est inférieur à 1000 et que le nombre de réplications est supérieur ou égal à 1000, l’intervalle de confiance est calculé par BCa (adjusted bootstrap percentile); dans le cas contraire en utilisant les quantiles de la distribution d’échantillonnage obtenue par bootstrap.
Calcul des p-values
Les p-values sont obtenues à partir de la valeur t des régressions : il s’agit de la proportion de valeur t absolue pour chaque réplication supérieure à la valeur t absolue dans le modèle initial.
Régressions logistiques
Les régressions logistiques sont réalisées à l’aide de la fonction glm
de R, avec une famille binomiale et une fonction de lien logit.
Si un avertissement (warning) survient, le résultat n’est pas affiché, sauf si le problème est lié à une séparation parfaite ou quasi-parfaite. Dans ce cas, un autre modèle est réalisé, en supprimant toutes les observations présentant ce problème; si les coefficients arrondis à 2 décimale sont identiques, le résultat est affiché. Pour une variable qualitative à plus de 2 classes, une p-value est calculée pour chaque classe par rapport à la référence à l’aide d’une ANOVA avec un test de rapport de vraisemblance.
Modèle de Cox
Les modèles de Cox sont réalisés avec la fonction coxph()
du package survival. Pour une variable qualitative à plus de 2 classes, une p-value est calculée pour chaque classe par rapport à la référence à l’aide d’une ANOVA avec un test de rapport de vraisemblance.
Aucun commentaire