SAS Tutorials :Transponere Data ved HJELP AV PROC TRANSPONERE

Ideelt sett er datasett strukturert slik at hver rad tilsvarer en unik emne eller objekt, og hver kolonne tilsvarer en enkelt variabel. Data kan imidlertid registreres eller samles inn i mange forskjellige ordninger, avhengig av hva som er praktisk eller kostnadseffektivt for datainnsamleren. Videre kan vi trenge at dataene våre ordnes i et bestemt format for å kunne bruke en bestemt analyse eller prosedyre. Det er her transponering eller omforming av et datasett kommer inn for å spille.

Enkel transposes

det enkleste mulige tilfellet av transposing bytter rader og kolonner i en matrise. Hvis det brukes på et tradisjonelt datasett, vil dette gjøre det slik at det var en rad per variabel og en kolonne per emne.

tenk for eksempel på følgende 2×3 matrise (2 rader, 3 kolonner):

1 2 34 5 6

Transponering av denne matrisen vil gjøre den til en 3×2 matrise (3 rader, 2 kolonner):

1 42 53 6

Legg Merke til at den første raden i matrise 1 blir den første kolonnen i matrise 2.

Lange datasett

Et «langt» datasett inneholder mer enn en rad per emne, og bruker en unik ID for å identifisere hvert emne. Panel (eller langsgående) data registreres ofte i dette «lange» formatet.

Vurder en klinikk hvor pasientene kommer inn for avtaler. Når pasientene kommer inn i klinikken, registreres hvert besøk i klinikkens poster. Det vil si at hver rad av «avtaler» datasettet tilsvarer besøk. En enkelt besøksrekord kan inneholde informasjon om pasientens navn, dato for besøket og pasientens vekt under besøket.

Pasient1 Vekt
Pasient1 Vekt
visit1 vekt
visit2 vekt
. . .
. . .
. . .

hvis du vil sammenligne Pasientens Vekt Ved Besøk 1 med vekten ved besøk 2, vil du kanskje transponere dataene slik at hver pasient har en linje med data Som Inkluderer Begge Vektverdiene (dvs., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Vekt1 Vekt2

Når Du skal bruke «lange» skjemadata

Statistiske programvarepakker krever vanligvis data for å være i «long» format for prosedyrer som:

  • Tidsserier
  • blandede og Multilevel modeller

brede datasett

du kan også forestille deg den omvendte situasjonen der du har en linje med data per observasjon (et bredt datasett), men du vil ha flere linjer med data med unike verdier av en bestemt variabel (dvs.Et Langt datasett).

Når man skal bruke «wide» data

Statistiske programvarepakker krever vanligvis at data skal være i «wide» format for prosedyrer som:

  • Parede t-tester
  • Gjentatte tiltak Anova
  • Korrelasjon

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.