ideelt set er datasæt struktureret, så hver række svarer til et unikt emne eller objekt, og hver kolonne svarer til en enkelt variabel. Imidlertid, data kan registreres eller indsamles i mange forskellige arrangementer, afhængigt af hvad der er praktisk eller omkostningseffektivt for dataindsamleren. Desuden kan vi have brug for, at vores data arrangeres i et bestemt format for at kunne bruge en bestemt analyse eller procedure. Det er her transponering eller omformning af et datasæt kommer ind for at spille.
Simple transponerer
det enkleste tilfælde af transponering skifter rækker og kolonner i en matrice. Hvis det anvendes på et traditionelt datasæt, ville dette gøre det sådan, at der var en række pr.variabel og en kolonne pr. emne.
overvej for eksempel følgende 2H3-matrice (2 rækker, 3 kolonner):
1 2 34 5 6
gennemførelse af denne matrice ville gøre den til en 3H2-matrice (3 rækker, 2 kolonner):
1 42 53 6
Bemærk, at den første række af matricen 1 bliver den første kolonne i matricen 2.
lange datasæt
et “langt” datasæt indeholder mere end en række pr.emne og bruger et unikt ID til at identificere hvert emne. Panel (eller langsgående) data registreres ofte i dette “lange” format.
overvej en klinik, hvor patienter kommer ind til aftaler. Når patienter kommer ind i klinikken, registreres hvert besøg i klinikens optegnelser. Det vil sige, hver række af datasættet “aftaler” svarer til besøg. En enkelt besøgsoptegnelse kan indeholde oplysninger om patientens navn, datoen for besøget og patientens vægt under dette besøg.
Patient1 | Visit1 | vægt |
Patient1 | Visit2 | vægt |
patient2 | visit1 | vægt |
patient2 | visit2 | vægt |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | vægt |
Patientn | Visitn | vægt |
Hvis du vil sammenligne patientens vægt ved besøg 1 med deres vægt ved besøg 2, vil du måske transponere dataene, så hver patient har en linje med data, der inkluderer begge vægtværdier (dvs., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | vægt1 | Vægt2 |
Hvornår skal man bruge “lange” formulardata
statistiske programpakker kræver typisk data for at vær i “langt” format for procedurer som:
- tidsserier
- blandede og multilevel modeller
brede datasæt
Du kan også forestille dig den omvendte situation, hvor du har en linje med data pr.observation (et bredt datasæt), men du vil have flere linjer med data med unikke værdier af en bestemt variabel (dvs. et langt datasæt).
Hvornår skal man bruge “brede” data
statistiske programpakker kræver typisk, at data er i “bredt” format til procedurer som:
- parrede t-tests
- gentagne målinger ANOVA
- korrelation