SAS Tutorials: Trasposizione dei dati tramite PROC TRANSPOSE

Idealmente, i set di dati sono strutturati in modo che ogni riga corrisponda a un soggetto o oggetto univoco e ogni colonna corrisponda a una singola variabile. Tuttavia, i dati possono essere registrati o raccolti in molte modalità diverse, a seconda di ciò che è conveniente o conveniente per il raccoglitore di dati. Inoltre, potremmo aver bisogno che i nostri dati siano organizzati in un particolare formato per utilizzare un’analisi o una procedura specifica. Questo è dove trasporre o rimodellare un set di dati entra in gioco.

Traspone semplice

Il caso più semplice possibile di trasposizione commuta le righe e le colonne di una matrice. Se applicato a un set di dati tradizionale, questo farebbe in modo che ci fosse una riga per variabile e una colonna per oggetto.

Ad esempio, si consideri la seguente matrice 2×3 (2 righe, 3 colonne):

1 2 34 5 6

La trasposizione di questa matrice la trasformerebbe in una matrice 3×2 (3 righe, 2 colonne):

1 42 53 6

Si noti che la prima riga della matrice 1 diventa la prima colonna della matrice 2.

Set di dati lunghi

Un set di dati “lungo” contiene più di una riga per soggetto e utilizza un ID univoco per identificare ciascun soggetto. I dati del pannello (o longitudinali) vengono spesso registrati in questo formato “lungo”.

Considera una clinica in cui i pazienti entrano per gli appuntamenti. Quando i pazienti entrano in clinica, ogni visita viene registrata nei registri della clinica. Cioè, ogni riga del set di dati” appuntamenti ” corrisponde a visita. Un singolo record di visita potrebbe contenere informazioni sul nome del paziente, la data della visita e il peso del paziente durante la visita.

Patient1 Visit1 Peso
Patient1 Visit2 Peso
Patient2 Visit1 Peso
Patient2 Visit2 Peso
. . .
. . .
. . .
Patientn Visitn Peso
Patientn Visitn Peso

Se si desidera confrontare il peso del paziente al momento della visita, 1 per il loro peso in visita a 2, si potrebbe desiderare di recepire i dati in modo che ogni paziente ha una riga di dati che include sia i valori di peso (es., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Weight1 Weight2

Quando usare “lungo” i dati del modulo

pacchetti di programmi Statistici in genere richiedono dati per essere “lungo” formato per le procedure come:

  • Tempo di serie
  • Misto e modelli multilivello

Ampio set di dati

Si può anche immaginare la situazione opposta, in cui si dispone di una riga di dati per l’osservazione (un ampio set di dati), ma si desidera più righe di dati con valori univoci di una certa variabile (cioè, un lungo set di dati).

Quando utilizzare i dati “wide”

I pacchetti software statistici in genere richiedono che i dati siano in formato” wide ” per procedure come:

  • T-test accoppiati
  • Misure ripetute ANOVA
  • Correlazione

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.