Comment préparer un fichier pour une analyse statistique ?

Ça y est, vous avez un sujet de thèse de médecine, ou une étude à mettre en place ? Parfait ! Nous vous avons préparé une liste de 10 règles à respecter afin de rendre vos données analysables par un logiciel de biostatistique.

Quel logiciel de saisie de données choisir ?

Avant toute chose, il est nécessaire de définir sur quel format de fichier vous allez entrer les données. Nous vous suggérons d’utiliser Microsoft Excel ou LibreOffice Calc pour réaliser la base de données, en n’utilisant que la première feuille. D’autres logiciels sont excellents, gratuits, et spécialisés pour la saisie des données (notamment Epidata Entry), mais nécessitent un apprentissage plus important qu’Excel ou Calc. Si vous ne savez pas utiliser Excel, rendez-vous sur notre page dédiée.

Avant la saisie : comment structurer la base ?

1- Réfléchir avant le recueil aux données qui vont réellement être intéressantes à analyser

Trop souvent en effet, le nombre de variables à recueillir est bien supérieur à celles réellement analysées. Cela augmente considérablement le travail de la personne en charge du recueil (qui est toujours fastidieux), et le risque d’obtenir des données manquantes pouvant réduire la puissance de l’étude. Pour une « petite » étude, il n’est pas ridicule d’avoir moins de 10 colonnes ! Évitez les commentaires libres, mais classez-les a priori. Si cela n’est pas possible, réalisez cette opération une fois la saisie terminée (voir plus bas).

Il est également important de limiter le nombre de classes pour une colonne non numérique : l’idéal étant d’avoir moins de 5 classes, et jamais plus de 10.

2- Une seule ligne par patient, une seule caractéristique par colonne

Et c’est tout : il ne faut pas avoir de lignes de totaux ou des tableaux à l’intérieur de votre feuille Excel. Il ne doit pas non plus y avoir de colonnes ou de lignes fusionnées.

3- La première ligne doit être le nom de la variable

Nous vous conseillons d’utiliser un nom explicite et court. Cela vous permettra de réaliser des graphiques sans avoir à réécrire les titres des axes. Le logiciel de biostatistique pvalue.io autorise les noms jusqu’à 40 caractères (tronqués au-delà) et accepte les espaces.
Les classes des variables catégorielles (non numériques) devraient être également explicites (et non des nombres). Par défaut, le logiciel pvalue.io reconnaît que les variables comportant moins de 5 valeurs différentes sont des variables catégorielles.

4- Aucune colonne n’est le contraire d’une autre

Dans l’exemple ci-dessous, il est inutile d’avoir les deux colonnes. Une seule colonne « Sexe », codée « Masculin » pour les hommes et « Féminin » pour les femmes est plus adapté.

5- Il ne peut pas y avoir deux colonnes dont l’une est une transformation d’une autre

Dans l’exemple ci-dessous, « Age en catégorie » est une transformation de « Age ». Il ne faut en garder qu’une; dans cet exemple « Age » (cf règle n° 6).

6- Ne pas coder en classes des variables numériques

Il est toujours préférable de garder une colonne numérique tant que les conditions d’application des méthodes statistiques sont respectées. Il y a en effet une perte d’information importante par cette transformation.

Cette règle admet une exception si les seuils sont définis dans la littérature ou habituellement utilisés.

Comment saisir les données ?

7- Aucune unité de mesure ni de pourcentage dans une colonne numérique.

De manière générale, il ne faut mettre aucun caractère non numérique dans une colonne numérique. Par exemple, il ne faut pas écrire 10% ou 134mmHg.

8- Garder la même orthographe pour les classes des variables catégorielles

Votre logiciel de biostatistique a beau être très intelligent, il reconnaîtra IDM et infarctus du myocarde comme 2 catégories différentes.

9- Laisser les cellules vides pour les données manquantes

Ne pas mettre  d’autres valeurs telles que des « ? », « . », NA, etc.

10- Ne pas utiliser de données nominatives

Idéalement, il faut utiliser des numéros d’anonymat pour chacun de vos patients. Ce numéro d’anonymat peut tout simplement être un numéro d’ordre d’inclusion dans l’étude. Pour retrouver le patient qui correspond à ce numéro d’anonymat, vous pouvez tenir un autre fichier Excel ou écrire sur papier libre (mais attention à ne pas le perdre) comportant deux colonnes : le nom du patient et le numéro d’anonymat. Ce fichier de correspondance doit être gardé dans le service d’où sont extraits les patients et n’a pas le droit d’être transporté ni copié.

Après la saisie : le data management

Le logiciel de biostatistique disponible sur pvalue.io n’est pas conçu comme un outil de data management. Cela signifie qu’il ne peut pas réaliser d’opération entre plusieurs colonnes (par exemple calculer un score).

Il est donc nécessaire de travailler votre fichier en le dupliquant (une fois la saisie terminée, il ne faut plus toucher au fichier brut; on dit alors qu’elle est « gelée »). Vous pourrez ensuite créer des nouvelles variables, qui pourront être traitées par le logiciel.

Règle ultime

Avant l’importation de votre fichier de données sur le logiciel, vous devrez supprimer le numéro d’anonymat et le nom de l’hôpital, et remplacer les dates de naissance par les âges.

Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.