Ideelt sett er datasett strukturert slik at hver rad tilsvarer en unik emne eller objekt, og hver kolonne tilsvarer en enkelt variabel. Data kan imidlertid registreres eller samles inn i mange forskjellige ordninger, avhengig av hva som er praktisk eller kostnadseffektivt for datainnsamleren. Videre kan vi trenge at dataene våre ordnes i et bestemt format for å kunne bruke en bestemt analyse eller prosedyre. Det er her transponering eller omforming av et datasett kommer inn for å spille.
Enkel transposes
det enkleste mulige tilfellet av transposing bytter rader og kolonner i en matrise. Hvis det brukes på et tradisjonelt datasett, vil dette gjøre det slik at det var en rad per variabel og en kolonne per emne.
tenk for eksempel på følgende 2×3 matrise (2 rader, 3 kolonner):
1 2 34 5 6
Transponering av denne matrisen vil gjøre den til en 3×2 matrise (3 rader, 2 kolonner):
1 42 53 6
Legg Merke til at den første raden i matrise 1 blir den første kolonnen i matrise 2.
Lange datasett
Et «langt» datasett inneholder mer enn en rad per emne, og bruker en unik ID for å identifisere hvert emne. Panel (eller langsgående) data registreres ofte i dette «lange» formatet.
Vurder en klinikk hvor pasientene kommer inn for avtaler. Når pasientene kommer inn i klinikken, registreres hvert besøk i klinikkens poster. Det vil si at hver rad av «avtaler» datasettet tilsvarer besøk. En enkelt besøksrekord kan inneholde informasjon om pasientens navn, dato for besøket og pasientens vekt under besøket.
Pasient1 | Vekt | ||
Pasient1 | Vekt | ||
visit1 | vekt | ||
visit2 | vekt | . | . | . |
. | . | . | |
. | . | . |
hvis du vil sammenligne Pasientens Vekt Ved Besøk 1 med vekten ved besøk 2, vil du kanskje transponere dataene slik at hver pasient har en linje med data Som Inkluderer Begge Vektverdiene (dvs., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Vekt1 | Vekt2 |
Når Du skal bruke «lange» skjemadata
Statistiske programvarepakker krever vanligvis data for å være i «long» format for prosedyrer som:
- Tidsserier
- blandede og Multilevel modeller
brede datasett
du kan også forestille deg den omvendte situasjonen der du har en linje med data per observasjon (et bredt datasett), men du vil ha flere linjer med data med unike verdier av en bestemt variabel (dvs.Et Langt datasett).
Når man skal bruke «wide» data
Statistiske programvarepakker krever vanligvis at data skal være i «wide» format for prosedyrer som:
- Parede t-tester
- Gjentatte tiltak Anova
- Korrelasjon