Idealmente, i set di dati sono strutturati in modo che ogni riga corrisponda a un soggetto o oggetto univoco e ogni colonna corrisponda a una singola variabile. Tuttavia, i dati possono essere registrati o raccolti in molte modalità diverse, a seconda di ciò che è conveniente o conveniente per il raccoglitore di dati. Inoltre, potremmo aver bisogno che i nostri dati siano organizzati in un particolare formato per utilizzare un’analisi o una procedura specifica. Questo è dove trasporre o rimodellare un set di dati entra in gioco.
Traspone semplice
Il caso più semplice possibile di trasposizione commuta le righe e le colonne di una matrice. Se applicato a un set di dati tradizionale, questo farebbe in modo che ci fosse una riga per variabile e una colonna per oggetto.
Ad esempio, si consideri la seguente matrice 2×3 (2 righe, 3 colonne):
1 2 34 5 6
La trasposizione di questa matrice la trasformerebbe in una matrice 3×2 (3 righe, 2 colonne):
1 42 53 6
Si noti che la prima riga della matrice 1 diventa la prima colonna della matrice 2.
Set di dati lunghi
Un set di dati “lungo” contiene più di una riga per soggetto e utilizza un ID univoco per identificare ciascun soggetto. I dati del pannello (o longitudinali) vengono spesso registrati in questo formato “lungo”.
Considera una clinica in cui i pazienti entrano per gli appuntamenti. Quando i pazienti entrano in clinica, ogni visita viene registrata nei registri della clinica. Cioè, ogni riga del set di dati” appuntamenti ” corrisponde a visita. Un singolo record di visita potrebbe contenere informazioni sul nome del paziente, la data della visita e il peso del paziente durante la visita.
Patient1 | Visit1 | Peso |
Patient1 | Visit2 | Peso |
Patient2 | Visit1 | Peso |
Patient2 | Visit2 | Peso |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | Peso |
Patientn | Visitn | Peso |
Se si desidera confrontare il peso del paziente al momento della visita, 1 per il loro peso in visita a 2, si potrebbe desiderare di recepire i dati in modo che ogni paziente ha una riga di dati che include sia i valori di peso (es., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
Quando usare “lungo” i dati del modulo
pacchetti di programmi Statistici in genere richiedono dati per essere “lungo” formato per le procedure come:
- Tempo di serie
- Misto e modelli multilivello
Ampio set di dati
Si può anche immaginare la situazione opposta, in cui si dispone di una riga di dati per l’osservazione (un ampio set di dati), ma si desidera più righe di dati con valori univoci di una certa variabile (cioè, un lungo set di dati).
Quando utilizzare i dati “wide”
I pacchetti software statistici in genere richiedono che i dati siano in formato” wide ” per procedure come:
- T-test accoppiati
- Misure ripetute ANOVA
- Correlazione