ideális esetben az adatkészletek úgy vannak felépítve, hogy minden sor egy egyedi tárgynak vagy objektumnak felel meg, és minden oszlop egyetlen változónak felel meg. Az adatok azonban sokféle módon rögzíthetők vagy gyűjthetők, attól függően, hogy mi kényelmes vagy költséghatékony az adatgyűjtő számára. Továbbá szükség lehet arra, hogy adatainkat egy adott formátumban rendezzük el egy adott elemzés vagy eljárás alkalmazása érdekében. Ez az, ahol átültetése vagy átalakítása adatkészlet jön játszani.
egyszerű átültetés
az átültetés legegyszerűbb esete a mátrix sorait és oszlopait váltja át. Ha egy hagyományos adatkészletre alkalmazzák, ez azt eredményezné, hogy változónként egy sor, alanyonként pedig egy oszlop legyen.
vegyük például a következő 2×3 mátrixot (2 sor, 3 oszlop):
1 2 34 5 6
ennek a mátrixnak az átültetése 3×2 mátrixgá változtatná (3 sor, 2 oszlop):
1 42 53 6
figyeljük meg, hogy az 1.mátrix első sora a 2. mátrix első oszlopává válik.
hosszú adatkészletek
a” hosszú ” adatkészlet tárgyanként egynél több sort tartalmaz, és egyedi azonosítót használ az egyes alanyok azonosításához. A Panel (vagy hosszanti) adatokat gyakran ebben a “hosszú” formátumban rögzítik.
Vegyünk egy klinikát, ahol a betegek jönnek a találkozókra. Amint a betegek belépnek a klinikára, minden látogatást rögzítenek a klinika nyilvántartásában. Vagyis a “találkozók” adatkészlet minden sora megfelel a látogatásnak. Egyetlen látogatási rekord tartalmazhat információkat a beteg nevéről, a látogatás dátumáról és a beteg súlyáról a látogatás során.
Patient1 | Visit1 | Súly |
Patient1 | Visit2 | Súly |
patient2 | visit1 | súly | patient2 | visit2 | súly |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | Súly | Patientn | Visitn | Súly |
ha össze szeretné hasonlítani a beteg súlyát az 1. látogatáskor a 2. látogatáskor, érdemes átültetni az adatokat úgy, hogy minden betegnek legyen egy adatsora, amely mindkét súlyértéket tartalmazza (azaz., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
mikor kell használni a “hosszú” űrlapadatokat
a statisztikai szoftvercsomagok általában megkövetelik az adatok “hosszú” formátum az olyan eljárásokhoz, mint:
- idősorok
- vegyes és többszintű modellek
széles adatkészletek
elképzelheti azt a fordított helyzetet is, amikor megfigyelésenként egy adatsor van (széles adatkészlet), de több adatsort szeretne egy bizonyos változó egyedi értékeivel (azaz hosszú adatkészlet).
mikor kell használni a “széles” adatokat
a statisztikai szoftvercsomagok általában “széles” formátumú adatokat igényelnek az olyan eljárásokhoz, mint:
- párosított t-tesztek
- ismételt mérések ANOVA
- korreláció