Les analyses prédictives

Les analyses prédictives permettent de prédire un état de santé à partir des caractéristiques démographiques, cliniques, paracliniques ou de mode de vie du patient. Elles sont utilisées dans l’élaboration de scores de risque.

En santé, les analyses prédictives reposent sur des modèles de prédiction. Dans pvalue.io, le modèle de prédiction utilisé est la régression logistique. La prédiction permet d’attribuer une probabilité à un patient d’appartenir dans un groupe plutôt qu’un autre (par exemple : haut risque / bas risque, infectieux / non infectieux, idiopathique / médicamenteux, etc.) en fonction de ses caractéristiques.

La probabilité prédite repose sur une fonction mathématique à partir du calcul du prédicteur linéaire (qui est égal aux coefficients de la régression multiplié par la valeur pour ce patient). Par exemple, si le modèle (fictif) de prédiction visant à prédire si un patient est à haut risque de complications liées au covid est le suivant (l’odds ratio est l’exponentielle du coefficient):

CoefficientOdds Ratio [IC]p
Intercept-0.20.81 [0.6-1]0.15
Sexe homme vs femme-0.51.65 [1.2, 2.3]<0.001
Age0.011.01 [1.00, 1.02]<0.001
Tabac oui vs non1.02.71 [2.0, 3.5]<0.001

Imaginons qu’un patient ait 65 ans, soit un homme et fume, la probabilité d’être à haut risque pour la covid est égale à :

$${e^{-0.2 + 0.5 + 0.01 \times 65 + 1.0}\over{1+e^{-0.2 + 0.5 + 0.01 \times 65 + 1.0}}}$$

pvalue permet de développer un modèle de prédiction, avec la meilleure validité interne possible, en suivant les bonnes pratiques telles qu’énoncées dans le TRIPOD statement [1] et dans le livre d’Ewout Steyerberg [2]. Une fois le modèle développé, il sera fondamental de le valider avec un autre jeu de données, afin d’avoir une bonne validité externe. Cette étape de validité externe nécessite une équipe de méthodologistes et ne peut être réalisée automatiquement.

Comment réaliser une analyse prédictive avec pvalue.io

Il n’a jamais été aussi simple de développer un modèle de prédiction :

  1. Choisissez de réaliser une analyse prédictive
  2. Sélectionnez la variable que vous souhaitez prédire (Y) et les variables connues pour avoir une influence sur la variable à prédire (X)
  3. Vérifiez qu’il n’y a pas d’erreurs d’après l’analyse des statistiques descriptives de chaque variable (en observant les graphiques et les tableaux générés)
  4. Transformez les variables qui ne sont pas liées linéairement à la variable à expliquer
  5. Vérifiez que la discrimination et la calibration sont correctes
  6. Prédisez le groupe auquel appartient un patient donné

Mesures de discrimination d’un modèle

La discrimination d’un modèle mesure la capacité d’un modèle à classer les patients dans le bon groupe. Cette mesure est souvent la statistique c, c’est-à-dire l’aire sous la courbe (AUC) d’une courbe ROC. L’AUC est comprise entre 0.5 et 1, et plus la valeur est proche de 1, et plus la discrimination du modèle est élevée. Une autre mesure reportée par pvalue.io est le score de Brier, compris entre 0 et 1; plus la valeur est proche de 0 et plus discriminant est le modèle.

Mesures de calibration d’un modèle

Un modèle est dit bien calibré lorsque la probabilité prédite est correcte. Par exemple pour avoir une bonne calibration, il faudrait que x% de mes patients ayant une probabilité prédite de x% aient été classés à haut risque dans le jeu de données initial. On évalue le plus souvent la calibration à l’aide d’une courbe de calibration. Cette courbe de calibration se construit en créant des groupes de patients dans notre base données ayant une certaine probabilité prédite (par exemple entre 0 et 20%, entre 20% et 40%, entre 40% et 60%, entre 60% et 80% et entre 80% et 100%), et de déterminer dans ces groupes, la proportion de patients étant effectivement à haut risque. Chaque point de la courbe correspond à un groupe de patients, dont les coordonnées sont la probabilité observée et la probabilité prédite. Une courbe de régression lissée lie ces points, et dans l’idéal, cette courbe doit se juxtaposer à la diagonale, et les points situés à intervalle régulier.

Courbe de calibration

Courbe de calibration obtenue à l’aide de pvalue.io

Ainsi, un modèle peut avoir une bonne discrimination et une mauvaise calibration. Si le modèle n’est pas bien calibré, plusieurs raisons peuvent l’expliquer; l’article de Van Calster [3] permet d’aller plus loin sur ce sujet.

Utilité de la courbe ROC

En médecine, l’objectif sous-jacent d’un modèle de prédiction n’est pas toujours d’attribuer une probabilité, mais de classer -même si cela n’est pas encouragé [1,2,4]-; pour cela, la détermination de seuils de décision sont indispensables (par exemple, je peux considérer à haut risque un patient avec une probabilité prédite supérieure à 50%, et à bas risque si la probabilité prédite est inférieure à 50%).

La courbe ROC représente la sensibilité d’un test en fonction de 1-spécificité selon des seuils de probabilités prédites. On dit par exemple qu’au seuil de 50%, la sensibilité est de 0.87 et la spécificité de 0.80. Cela signifie que si on classe à haut risque des patients ayant une probabilité prédite supérieure à 50%, notre test aura une sensibilité est de 0.87 et une spécificité de 0.80.

ROC Curve

Courbe ROC obtenue à l’aide de pvalue.io

Cependant, un seuil optimal valable en toute circonstance n’existe pas [4], ce seuil dépend du contexte clinique et si on préfère privilégier la sensibilité sur la spécificité.

 

 

[1] Collins, G. S., Reitsma, J. B., Altman, D. G. & Moons, K. G. M. Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis (TRIPOD): The TRIPOD Statement. Ann Intern Med 162, 55–63 (2015).
[2] Steyerberg, E. W. Clinical Prediction Models: A Practical Approach to Development, Validation, and Updating. (Springer International Publishing, 2019). doi:10.1007/978-3-030-16399-0.
[3] Van Calster, B. et al. Calibration: the Achilles heel of predictive analytics. BMC Medicine 17, 230 (2019).
4] Wynants, L. et al. Three myths about risk thresholds for prediction models. BMC Medicine 17, 192 (2019).

Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.