Plan d’analyse des données
1. Pourquoi un plan d’analyse des données ?
« Un plan d’analyse de données vous aide à réfléchir aux données que vous allez collecter, à leur utilisation et à leur analyse. La planification des analyses peut représenter un précieux investissement en temps » (Centres pour le contrôle et la prévention des maladies, 2013).
La méthode pour élaborer un plan d’analyse de données dans le contexte de la PNIN n’est pas très différente de la méthode utilisée dans un contexte de recherche.
Dans le contexte de la PNIN, le processus devrait être plus simple car :
- un cadre d’analyse de données est déjà généré (étape 3 du processus de formulation des questions) et constitue la base du plan d’analyse de données plus détaillé (après l’étape 4 du processus de formulation des questions) ;
- les méthodologies d’analyse de données sont décrites dans cette section, pages 7 à 9 ;
- la PNIN concerne l’utilisation de données existantes, il ne s’agit pas de concevoir un protocole pour la collecte de nouvelles données.
La partie suivante décrit brièvement le contenu d’un plan d’analyse de données en se concentrant sur ce qui est un peu spécifique à la PNIN.
Recommandations générales :
- Ne paniquez pas !
- Utilisez les conseils et les expériences de collègues et d’experts.
- Contacter rapidement un expert si nécessaire.
Lectures recommandées :
- Centers for Disease Control and Prevention (2013) Creating an analysis plan. Atlanta.
- Simpson, S.H. Creating a data analysis plan : what to consider when choosing statistics for a study (2015).
2. Qu’est-ce qu’un plan d’analyse des données ?
- Question principale et sous-questions
- Jeu(x) de données à utiliser
- Critères d’inclusion / d’exclusion
- Variables à utiliser pour l’analyse principale
- Méthodes statistiques et logiciels à utiliser
- Tableaux
=> Estimation du temps et des ressources nécessaires
3. Question principale et sous-questions
À ce stade, la question de politique (et, dans certains cas, ses sous-questions) est déjà bien définie (cette section, page 11).
Répondre à toutes les sous-questions fournira une réponse complète à la question principale.
4. Jeux de données à utiliser
Le ou les jeux de données nécessaires sont listés.
Dans le contexte de la PNIN, il peut être nécessaire d’apporter une attention particulière à la gestion des données : comme le ou les jeux de données peuvent provenir de sources différentes et/ou peuvent ne pas avoir été conçus pour la question principale, il peut être nécessaire d’harmoniser / de compléter / de nettoyer le ou les jeux de données bruts.
- Les jeux de données sont-ils comparables ?
- Les indicateurs sont-ils harmonisés ?
- Est-il nécessaire de transformer les données pour l’analyse ?
Pour répondre à ces questions, vous devez avoir accédé aux jeux de données en question.
5. Critères d’inclusion/exclusion
Dans cette partie, les sous-groupes de population, le périmètre géographique, la période… sont définis très précisément.
Vous devez également clarifier le niveau de qualité des données requis pour l’analyse.
En effet, en fonction de l’analyse, vous devrez être plus ou moins strict sur le niveau de qualité des données requis.
Ceci est détaillé dans la section 3.3 sur la qualité des données.
6. Variables à utiliser pour l’analyse principale
Dans cette partie, vous définissez précisément les variables / les indicateurs à utiliser dans l’analyse.
Par exemple, si vous analysez « l’obésité », vous devez préciser si vous vous référez à l’indice de masse corporelle (IMC) et si vous allez utiliser différentes catégories d’IMC, la moyenne ou les deux.
Dans le contexte de la PNIN, l’harmonisation de la définition des indicateurs entre les jeux de données sera importante.
7. Méthodes statistiques et logiciels à utiliser
Assurer la cohérence avec la partie 4 des notes d’orientation sur l’analyse de données.
De plus, pour ne fournir que des analyses incontestables (cette section, page 4), assurez-vous que la méthode statistique utilisée est cohérente avec les jeux de données disponibles et avec la qualité des données de ces jeux de données. Le choix de la méthode statistique est essentiel afin d’éviter une surinterprétation des données qui pourrait conduire à des conclusions erronées.
L’équipe PNIN a-t-elle la capacité technique de gérer la méthode statistique et le logiciel identifiés ?
8. Tableau
Rien de spécifique à la PNIN.
9. Estimation du temps et des ressources nécessaires
À ce stade, une estimation précise du temps et des ressources nécessaires pour mener l’analyse doit être réalisée.
Si cette estimation prévoit plus de temps que l’estimation initiale effectuée lors du cadre d’analyse de données, vous pouvez ajuster la ou les questions à traiter en premier.