în mod ideal, seturile de date sunt structurate astfel încât fiecare rând să corespundă unui subiect sau obiect unic și fiecare coloană să corespundă unei singure variabile. Cu toate acestea, datele pot fi înregistrate sau colectate în mai multe aranjamente diferite, în funcție de ceea ce este convenabil sau rentabil pentru colectorul de date. În plus, este posibil să avem nevoie ca datele noastre să fie aranjate într-un anumit format pentru a utiliza o analiză sau o procedură specifică. Acest lucru este în cazul în care transpunerea sau remodelarea unui set de date vine pentru a juca.
simple transpune
cel mai simplu caz posibil de transpunere comută rândurile și coloanele unei matrice. Dacă se aplică unui set de date tradițional, acest lucru ar face astfel încât să existe un rând pe variabilă și o coloană pe subiect.
de exemplu, luați în considerare următoarea matrice 2×3 (2 rânduri, 3 coloane):
1 2 34 5 6
transpunerea acestei matrice ar transforma-o într-o matrice 3×2 (3 rânduri, 2 coloane):
1 42 53 6
observați că primul rând al matricei 1 devine prima coloană a matricei 2.
Seturi de date lungi
un set de date „lung” conține mai mult de un rând pentru fiecare subiect și folosește un ID unic pentru a identifica fiecare subiect. Datele panoului (sau longitudinale) sunt adesea înregistrate în acest format „lung”.
luați în considerare o clinică în care pacienții vin pentru întâlniri. Pe măsură ce pacienții intră în clinică, fiecare vizită este înregistrată în înregistrările clinicii. Adică, fiecare rând al setului de date „numiri” corespunde vizitei. O singură înregistrare de vizită poate conține informații despre numele pacientului, data vizitei și greutatea pacientului în timpul acelei vizite.
Patient1 | Visit1 | Weight | |||
Visit2 | Weight | ||||
patient2 | visit1 | greutate | patient2 | visit2 | greutate |
. | . | . | |||
. | . | . | |||
. | . | . | Pacientn | vizita | greutate | Pacientn | vizita | greutate |
dacă doriți să comparați greutatea pacientului la vizita 1 cu greutatea sa la vizita 2, este posibil să doriți să transpuneți datele astfel încât fiecare pacient să aibă o linie de date care să includă ambele valori ale greutății (adică., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
când se utilizează datele din formularul „lung”
pachetele software statistice necesită de obicei ca datele să fie în „format lung” pentru proceduri precum:
- serii de timp
- modele mixte și pe Mai multe niveluri
seturi de date largi
de asemenea, vă puteți imagina situația inversă în care aveți o linie de date pe observație (un set de date larg), dar doriți mai multe linii de date cu valori unice ale unei anumite variabile (adică un set de date lung).
când se utilizează date „largi”
pachetele software statistice necesită de obicei ca datele să fie în format „larg” pentru proceduri precum:
- teste t asociate
- măsuri repetate Anova
- corelație