Idéalement, les ensembles de données sont structurés de manière à ce que chaque ligne corresponde à un sujet ou un objet unique, et chaque colonne correspond à une seule variable. Cependant, les données peuvent être enregistrées ou collectées dans de nombreux arrangements différents, selon ce qui est pratique ou rentable pour le collecteur de données. De plus, nous pouvons avoir besoin que nos données soient disposées dans un format particulier afin d’utiliser une analyse ou une procédure spécifique. C’est là que la transposition ou le remodelage d’un jeu de données entre en jeu.
Transpositions simples
Le cas le plus simple de transposition change les lignes et les colonnes d’une matrice. Si elle est appliquée à un ensemble de données traditionnel, cela ferait en sorte qu’il y ait une ligne par variable et une colonne par sujet.
Par exemple, considérons la matrice 2×3 suivante (2 lignes, 3 colonnes):
1 2 34 5 6
Transposer cette matrice la transformerait en une matrice 3×2 (3 lignes, 2 colonnes):
1 42 53 6
Notez que la première ligne de la matrice 1 devient la première colonne de la matrice 2.
Ensembles de données longs
Un ensemble de données » long » contient plus d’une ligne par sujet et utilise un identifiant unique pour identifier chaque sujet. Les données de panel (ou longitudinales) sont souvent enregistrées dans ce format « long « .
Considérez une clinique où les patients viennent pour des rendez-vous. Au fur et à mesure que les patients arrivent à la clinique, chaque visite est enregistrée dans les dossiers de la clinique. Autrement dit, chaque ligne de l’ensemble de données « rendez-vous » correspond à visit. Un seul dossier de visite peut contenir des informations sur le nom du patient, la date de la visite et le poids du patient pendant cette visite.
Patient1 | Visit1 | Poids |
Patient1 | Visit2 | Poids |
Patient2 | Visit1 | Poids |
Patient2 | Visit2 | Poids |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | Poids |
Patientn | Visitn | Poids |
Si vous souhaitez comparer le poids du patient lors de la visite 1 à son poids lors de la visite 2, vous pouvez transposer les données de sorte que chaque patient dispose d’une ligne de données comprenant les deux valeurs de poids (i.e., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
Quand utiliser des données de formulaire « longues »
Les progiciels statistiques nécessitent généralement que les données soient au format « long » pour des procédures telles que :
- Séries chronologiques
- Modèles mixtes et multiniveaux
Ensembles de données larges
Vous pouvez également imaginer la situation inverse où vous avez une ligne de données par observation (un ensemble de données large) mais vous voulez plusieurs lignes de données avec des valeurs uniques d’une certaine variable (c’est-à-dire un ensemble de données long).
Quand utiliser des données « larges »
Les progiciels statistiques nécessitent généralement que les données soient au format « large » pour des procédures telles que:
- Tests t appariés
- Mesures répétées ANOVA
- Corrélation