SAS Tutorials: transponering af Data ved hjælp af PROC TRANSPOSE

ideelt set er datasæt struktureret, så hver række svarer til et unikt emne eller objekt, og hver kolonne svarer til en enkelt variabel. Imidlertid, data kan registreres eller indsamles i mange forskellige arrangementer, afhængigt af hvad der er praktisk eller omkostningseffektivt for dataindsamleren. Desuden kan vi have brug for, at vores data arrangeres i et bestemt format for at kunne bruge en bestemt analyse eller procedure. Det er her transponering eller omformning af et datasæt kommer ind for at spille.

Simple transponerer

det enkleste tilfælde af transponering skifter rækker og kolonner i en matrice. Hvis det anvendes på et traditionelt datasæt, ville dette gøre det sådan, at der var en række pr.variabel og en kolonne pr. emne.

overvej for eksempel følgende 2H3-matrice (2 rækker, 3 kolonner):

1 2 34 5 6

gennemførelse af denne matrice ville gøre den til en 3H2-matrice (3 rækker, 2 kolonner):

1 42 53 6

Bemærk, at den første række af matricen 1 bliver den første kolonne i matricen 2.

lange datasæt

et “langt” datasæt indeholder mere end en række pr.emne og bruger et unikt ID til at identificere hvert emne. Panel (eller langsgående) data registreres ofte i dette “lange” format.

overvej en klinik, hvor patienter kommer ind til aftaler. Når patienter kommer ind i klinikken, registreres hvert besøg i klinikens optegnelser. Det vil sige, hver række af datasættet “aftaler” svarer til besøg. En enkelt besøgsoptegnelse kan indeholde oplysninger om patientens navn, datoen for besøget og patientens vægt under dette besøg.

Patient1 Visit1 vægt
Patient1 Visit2 vægt
patient2 visit1 vægt
patient2 visit2 vægt
. . .
. . .
. . .
Patientn Visitn vægt
Patientn Visitn vægt

Hvis du vil sammenligne patientens vægt ved besøg 1 med deres vægt ved besøg 2, vil du måske transponere dataene, så hver patient har en linje med data, der inkluderer begge vægtværdier (dvs., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn vægt1 Vægt2

Hvornår skal man bruge “lange” formulardata

statistiske programpakker kræver typisk data for at vær i “langt” format for procedurer som:

  • tidsserier
  • blandede og multilevel modeller

brede datasæt

Du kan også forestille dig den omvendte situation, hvor du har en linje med data pr.observation (et bredt datasæt), men du vil have flere linjer med data med unikke værdier af en bestemt variabel (dvs. et langt datasæt).

Hvornår skal man bruge “brede” data

statistiske programpakker kræver typisk, at data er i “bredt” format til procedurer som:

  • parrede t-tests
  • gentagne målinger ANOVA
  • korrelation

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.