v Ideálním případě, datové soubory jsou strukturovány tak, že každý řádek odpovídá jedné unikátní předmět nebo objekt, a každý sloupec odpovídá jedné proměnné. Data však mohou být zaznamenána nebo shromažďována v mnoha různých uspořádáních, v závislosti na tom, co je pro sběratele dat výhodné nebo nákladově efektivní. Kromě toho můžeme potřebovat, aby naše data byla uspořádána v určitém formátu, abychom mohli použít konkrétní analýzu nebo postup. To je místo, kde transpozice nebo přetvoření datové sady přichází do hry.
jednoduché transpozice
nejjednodušší možný případ transpozice přepne řádky a sloupce matice. Pokud se použije na tradiční datovou sadu, to by bylo tak, že tam byl jeden řádek na proměnnou, a jeden sloupec na předmět.
například, zvažte následující 2×3 matice (2 řádky, 3 sloupce):
1 2 34 5 6
Transpozici této matice by se proměnit 3×2 matice (3 řádky, 2 sloupce):
1 42 53 6
Všimněte si, že první řádek matice 1 se stává prvním sloupcem matice 2.
dlouhé datové sady
“ dlouhá “ datová sada obsahuje více než jeden řádek na subjekt a používá jedinečné ID k identifikaci každého subjektu. Panelová (nebo podélná) data se často zaznamenávají v tomto „dlouhém“ formátu.
zvažte kliniku, kde pacienti přicházejí na schůzky. Jak pacienti přicházejí na kliniku, každá návštěva je zaznamenána v záznamech kliniky. To znamená, že každý řádek datové sady „schůzky“ odpovídá návštěvě. Jeden záznam návštěvy může obsahovat informace o jménu pacienta, datum návštěvy, a hmotnost pacienta během této návštěvy.
Patient1 | Visit1 | Hmotnost |
Patient1 | Visit2 | Hmotnost |
Patient2 | Visit1 | Hmotnost |
Patient2 | Visit2 | Hmotnost |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | Hmotnost |
Patientn | Visitn | Hmotnost |
Pokud chcete porovnat hmotnosti pacienta na návštěvě 1 až jejich hmotnost při návštěvě 2, možná budete chtít transponovat data tak, že každý pacient má jen jeden řádek dat, která zahrnuje jak hodnoty hmotnosti (tj., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Závaží1 | Weight2 |
Při použití „dlouhé“ formě dat
Statistické softwarové balíky obvykle vyžadují údaje, které mají být v „dlouhý“ formát pro postupy, jako je:
- Časové řady
- Smíšené a víceúrovňové modely
Široký datových souborů
můžete si také představit obrácenou situaci, kdy máte jeden řádek dat za pozorování (široký dataset), ale chcete více řádků dat s unikátní hodnoty určité proměnné (tj. dlouhou dataset).
Při použití „široký“ data
Statistické softwarové balíky obvykle vyžadují údaje, které mají být v „širokoúhlý“ formát pro postupy, jako je:
- Párové t-testy
- Opakovaná měření ANOVA
- Korelace