idealnie, zbiory danych są tak skonstruowane, że każdy wiersz odpowiada jednemu unikalnemu podmiotowi lub obiektowi, a każda kolumna odpowiada jednej zmiennej. Jednak dane mogą być rejestrowane lub gromadzone w wielu różnych układach, w zależności od tego, co jest wygodne lub opłacalne dla kolektora danych. Ponadto możemy potrzebować, aby nasze dane były ułożone w określonym formacie w celu zastosowania określonej analizy lub procedury. To jest, gdzie transpozycja lub przekształcanie zbioru danych przychodzi do gry.
proste transpozycje
najprostszy możliwy przypadek transpozycji przełącza wiersze i kolumny macierzy. W przypadku zastosowania do tradycyjnego zbioru danych, oznaczałoby to, że na zmienną przypadałby jeden wiersz i jedna kolumna na obiekt.
rozważmy na przykład następującą macierz 2×3 (2 wiersze, 3 kolumny):
1 2 34 5 6
przeniesienie tej macierzy zmieniłoby ją w macierz 3×2 (3 wiersze, 2 kolumny):
1 42 53 6
zauważ, że pierwszy wiersz macierzy 1 staje się pierwszą kolumną macierzy 2.
Długie zbiory danych
„długi” zbiór danych zawiera więcej niż jeden wiersz na temat i używa unikalnego identyfikatora do identyfikacji każdego obiektu. Dane panelowe (lub podłużne) są często zapisywane w tym „długim” formacie.
rozważmy klinikę, w której pacjenci przychodzą na wizyty. Kiedy pacjenci przychodzą do kliniki, każda wizyta jest rejestrowana w dokumentacji kliniki. Oznacza to, że każdy wiersz zbioru danych „terminy” odpowiada wizycie. Zapis pojedynczej wizyty może zawierać informacje o nazwisku pacjenta, dacie wizyty i wadze pacjenta podczas tej wizyty.
Pacjent1 | Odwiedzin1 | Waga |
Pacjent1 | Odwiedzin2 | Waga |
pacjent2 | odwiedzina1 | waga |
pacjent2 | odwiedzina2 | waga |
. | . | . |
. | . | . |
. | . | . |
Pacjentn | wizyta u pacjenta | Waga |
Pacjentn | wizyta u pacjenta | Waga |
jeśli chcesz porównać wagę pacjenta podczas wizyty 1 do jego wagi podczas wizyty 2, możesz transponować dane tak, aby każdy pacjent miał jedną linię danych, która obejmuje obie wartości wagi (tj., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Pacjentn | Waga1 | waga2 |
kiedy używać „długich” danych formularzy
pakiety oprogramowania statystycznego zazwyczaj wymagają danych „long” format dla procedur takich jak:
- Szeregi czasowe
- modele mieszane i wielopoziomowe
szerokie zbiory danych
Możesz również wyobrazić sobie odwrotną sytuację, w której masz jedną linię danych na obserwację (szeroki zbiór danych), ale chcesz wiele linii danych z unikalnymi wartościami określonej zmiennej (np. długi zbiór danych).
kiedy używać „szerokich” danych
pakiety oprogramowania statystycznego zazwyczaj wymagają, aby dane były w formacie „szerokim” dla procedur takich jak:
- sparowane testy t
- powtarzane pomiary Anova
- korelacja