SAS Návody: Transposing Dat pomocí PROC PROVEDENÍ

v Ideálním případě, datové soubory jsou strukturovány tak, že každý řádek odpovídá jedné unikátní předmět nebo objekt, a každý sloupec odpovídá jedné proměnné. Data však mohou být zaznamenána nebo shromažďována v mnoha různých uspořádáních, v závislosti na tom, co je pro sběratele dat výhodné nebo nákladově efektivní. Kromě toho můžeme potřebovat, aby naše data byla uspořádána v určitém formátu, abychom mohli použít konkrétní analýzu nebo postup. To je místo, kde transpozice nebo přetvoření datové sady přichází do hry.

jednoduché transpozice

nejjednodušší možný případ transpozice přepne řádky a sloupce matice. Pokud se použije na tradiční datovou sadu, to by bylo tak, že tam byl jeden řádek na proměnnou, a jeden sloupec na předmět.

například, zvažte následující 2×3 matice (2 řádky, 3 sloupce):

1 2 34 5 6

Transpozici této matice by se proměnit 3×2 matice (3 řádky, 2 sloupce):

1 42 53 6

Všimněte si, že první řádek matice 1 se stává prvním sloupcem matice 2.

dlouhé datové sady

“ dlouhá “ datová sada obsahuje více než jeden řádek na subjekt a používá jedinečné ID k identifikaci každého subjektu. Panelová (nebo podélná) data se často zaznamenávají v tomto „dlouhém“ formátu.

zvažte kliniku, kde pacienti přicházejí na schůzky. Jak pacienti přicházejí na kliniku, každá návštěva je zaznamenána v záznamech kliniky. To znamená, že každý řádek datové sady „schůzky“ odpovídá návštěvě. Jeden záznam návštěvy může obsahovat informace o jménu pacienta, datum návštěvy, a hmotnost pacienta během této návštěvy.

Patient1 Visit1 Hmotnost
Patient1 Visit2 Hmotnost
Patient2 Visit1 Hmotnost
Patient2 Visit2 Hmotnost
. . .
. . .
. . .
Patientn Visitn Hmotnost
Patientn Visitn Hmotnost

Pokud chcete porovnat hmotnosti pacienta na návštěvě 1 až jejich hmotnost při návštěvě 2, možná budete chtít transponovat data tak, že každý pacient má jen jeden řádek dat, která zahrnuje jak hodnoty hmotnosti (tj., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Závaží1 Weight2

Při použití „dlouhé“ formě dat

Statistické softwarové balíky obvykle vyžadují údaje, které mají být v „dlouhý“ formát pro postupy, jako je:

  • Časové řady
  • Smíšené a víceúrovňové modely

Široký datových souborů

můžete si také představit obrácenou situaci, kdy máte jeden řádek dat za pozorování (široký dataset), ale chcete více řádků dat s unikátní hodnoty určité proměnné (tj. dlouhou dataset).

Při použití „široký“ data

Statistické softwarové balíky obvykle vyžadují údaje, které mají být v „širokoúhlý“ formát pro postupy, jako je:

  • Párové t-testy
  • Opakovaná měření ANOVA
  • Korelace

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.