Sas Tutorials: Transposing Data using PROC TRANSPOSE

idealnie, zbiory danych są tak skonstruowane, że każdy wiersz odpowiada jednemu unikalnemu podmiotowi lub obiektowi, a każda kolumna odpowiada jednej zmiennej. Jednak dane mogą być rejestrowane lub gromadzone w wielu różnych układach, w zależności od tego, co jest wygodne lub opłacalne dla kolektora danych. Ponadto możemy potrzebować, aby nasze dane były ułożone w określonym formacie w celu zastosowania określonej analizy lub procedury. To jest, gdzie transpozycja lub przekształcanie zbioru danych przychodzi do gry.

proste transpozycje

najprostszy możliwy przypadek transpozycji przełącza wiersze i kolumny macierzy. W przypadku zastosowania do tradycyjnego zbioru danych, oznaczałoby to, że na zmienną przypadałby jeden wiersz i jedna kolumna na obiekt.

rozważmy na przykład następującą macierz 2×3 (2 wiersze, 3 kolumny):

1 2 34 5 6

przeniesienie tej macierzy zmieniłoby ją w macierz 3×2 (3 wiersze, 2 kolumny):

1 42 53 6

zauważ, że pierwszy wiersz macierzy 1 staje się pierwszą kolumną macierzy 2.

Długie zbiory danych

„długi” zbiór danych zawiera więcej niż jeden wiersz na temat i używa unikalnego identyfikatora do identyfikacji każdego obiektu. Dane panelowe (lub podłużne) są często zapisywane w tym „długim” formacie.

rozważmy klinikę, w której pacjenci przychodzą na wizyty. Kiedy pacjenci przychodzą do kliniki, każda wizyta jest rejestrowana w dokumentacji kliniki. Oznacza to, że każdy wiersz zbioru danych „terminy” odpowiada wizycie. Zapis pojedynczej wizyty może zawierać informacje o nazwisku pacjenta, dacie wizyty i wadze pacjenta podczas tej wizyty.

Pacjent1 Odwiedzin1 Waga
Pacjent1 Odwiedzin2 Waga
pacjent2 odwiedzina1 waga
pacjent2 odwiedzina2 waga
. . .
. . .
. . .
Pacjentn wizyta u pacjenta Waga
Pacjentn wizyta u pacjenta Waga

jeśli chcesz porównać wagę pacjenta podczas wizyty 1 do jego wagi podczas wizyty 2, możesz transponować dane tak, aby każdy pacjent miał jedną linię danych, która obejmuje obie wartości wagi (tj., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Pacjentn Waga1 waga2

kiedy używać „długich” danych formularzy

pakiety oprogramowania statystycznego zazwyczaj wymagają danych „long” format dla procedur takich jak:

  • Szeregi czasowe
  • modele mieszane i wielopoziomowe

szerokie zbiory danych

Możesz również wyobrazić sobie odwrotną sytuację, w której masz jedną linię danych na obserwację (szeroki zbiór danych), ale chcesz wiele linii danych z unikalnymi wartościami określonej zmiennej (np. długi zbiór danych).

kiedy używać „szerokich” danych

pakiety oprogramowania statystycznego zazwyczaj wymagają, aby dane były w formacie „szerokim” dla procedur takich jak:

  • sparowane testy t
  • powtarzane pomiary Anova
  • korelacja

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.