tutoriale SAS: transpunerea Datelor folosind PROC TRANSPOSE

în mod ideal, seturile de date sunt structurate astfel încât fiecare rând să corespundă unui subiect sau obiect unic și fiecare coloană să corespundă unei singure variabile. Cu toate acestea, datele pot fi înregistrate sau colectate în mai multe aranjamente diferite, în funcție de ceea ce este convenabil sau rentabil pentru colectorul de date. În plus, este posibil să avem nevoie ca datele noastre să fie aranjate într-un anumit format pentru a utiliza o analiză sau o procedură specifică. Acest lucru este în cazul în care transpunerea sau remodelarea unui set de date vine pentru a juca.

simple transpune

cel mai simplu caz posibil de transpunere comută rândurile și coloanele unei matrice. Dacă se aplică unui set de date tradițional, acest lucru ar face astfel încât să existe un rând pe variabilă și o coloană pe subiect.

de exemplu, luați în considerare următoarea matrice 2×3 (2 rânduri, 3 coloane):

1 2 34 5 6

transpunerea acestei matrice ar transforma-o într-o matrice 3×2 (3 rânduri, 2 coloane):

1 42 53 6

observați că primul rând al matricei 1 devine prima coloană a matricei 2.

Seturi de date lungi

un set de date „lung” conține mai mult de un rând pentru fiecare subiect și folosește un ID unic pentru a identifica fiecare subiect. Datele panoului (sau longitudinale) sunt adesea înregistrate în acest format „lung”.

luați în considerare o clinică în care pacienții vin pentru întâlniri. Pe măsură ce pacienții intră în clinică, fiecare vizită este înregistrată în înregistrările clinicii. Adică, fiecare rând al setului de date „numiri” corespunde vizitei. O singură înregistrare de vizită poate conține informații despre numele pacientului, data vizitei și greutatea pacientului în timpul acelei vizite.

Patient1

Patient1 Visit1 Weight
Visit2 Weight
patient2 visit1 greutate
patient2 visit2 greutate
. . .
. . .
. . . Pacientn vizita greutate
Pacientn vizita greutate

dacă doriți să comparați greutatea pacientului la vizita 1 cu greutatea sa la vizita 2, este posibil să doriți să transpuneți datele astfel încât fiecare pacient să aibă o linie de date care să includă ambele valori ale greutății (adică., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Weight1 Weight2

când se utilizează datele din formularul „lung”

pachetele software statistice necesită de obicei ca datele să fie în „format lung” pentru proceduri precum:

  • serii de timp
  • modele mixte și pe Mai multe niveluri

seturi de date largi

de asemenea, vă puteți imagina situația inversă în care aveți o linie de date pe observație (un set de date larg), dar doriți mai multe linii de date cu valori unice ale unei anumite variabile (adică un set de date lung).

când se utilizează date „largi”

pachetele software statistice necesită de obicei ca datele să fie în format „larg” pentru proceduri precum:

  • teste t asociate
  • măsuri repetate Anova
  • corelație

Lasă un răspuns

Adresa ta de email nu va fi publicată.