Ihannetapauksessa tietokokonaisuudet on jäsennetty niin, että jokainen rivi vastaa yhtä ainutkertaista aihetta tai objektia ja jokainen sarake vastaa yhtä muuttujaa. Tietoja voidaan kuitenkin tallentaa tai kerätä monin eri järjestelyin riippuen siitä, mikä on tiedonkerääjälle kätevää tai kustannustehokasta. Lisäksi saatamme tarvita tietomme järjestämistä tiettyyn muotoon, jotta voimme käyttää tiettyä analyysiä tai menettelyä. Tämä on, jos transponing tai muokkaamalla aineisto tulee pelata.
yksinkertainen Transponoi
yksinkertaisin mahdollinen transponointitapaus kytkee matriisin rivit ja sarakkeet. Jos sitä sovellettaisiin perinteiseen aineistoon, tämä tekisi siitä niin, että muuttujaa kohden olisi yksi rivi ja aihetta kohden yksi sarake.
tarkastellaan esimerkiksi seuraavaa 2×3-matriisia (2 riviä, 3 saraketta):
1 2 34 5 6
tämän matriisin Transponoiminen muuttaisi sen 3×2-matriisiksi (3 riviä, 2 saraketta):
1 42 53 6
huomaa, että matriisin 1 ensimmäisestä rivistä tulee matriisin 2 ensimmäinen sarake.
Pitkät tietokokonaisuudet
”pitkä” tietokokonaisuus sisältää enemmän kuin yhden rivin per aihe, ja se käyttää yksilöllistä ID: tä kunkin kohteen tunnistamiseen. Paneelien (tai pitkittäisten) tiedot tallennetaan usein tässä ”pitkässä” muodossa.
harkitse klinikkaa, jossa potilaat tulevat vastaanotolle. Kun vastaanotolle tulee potilaita, jokainen käynti kirjataan klinikan kirjanpitoon. Toisin sanoen jokainen rivi ”nimitykset” tietokokonaisuus vastaa käyntiä. Yksittäinen käyntitietue saattaa sisältää tietoja potilaan nimestä, käynnin ajankohdasta ja potilaan painosta käynnin aikana.
Potilas1 | potilaan paino | Potilas1 | Potilas2 | Paino | potilas2 | visit1 | paino |
potilas2 | visit2 | paino |
. | . | . |
. | . | . |
. | . | . |
potilaan | potilaan | potilaan | potilaan | potilaan | Paino |
Jos haluat verrata potilaan painoa käynnillä 1 heidän painoonsa käynnillä 2, saatat haluta siirtää tiedot siten, että jokaisella potilaalla on yksi rivi tietoja, jotka sisältävät molemmat painoarvot (ts., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
potilaan | Paino2 |
kun käytetään ”pitkän” muodon tietoja
tilastolliset ohjelmistopaketit edellyttävät yleensä tietojen olevan ”pitkä” muoto menettelyille, kuten:
- aikasarjat
- seka-ja Monitasomallit
laajat aineistot
voit myös kuvitella päinvastaisen tilanteen, jossa sinulla on yksi datarivi havaintoa kohti (laaja aineisto), mutta haluat useita rivejä tietoja, joilla on tietyn muuttujan (eli pitkän aineiston) yksilölliset arvot.
kun käytetään” laajaa ”dataa
tilastolliset ohjelmistopaketit vaativat tyypillisesti datan olevan ”laajassa” muodossa esimerkiksi:
- paritetut t-testit
- toistetut toimenpiteet ANOVA
- korrelaatio