SAS Tutorials: transponering av Data med PROC TRANSPOSE

idealiskt är dataset strukturerade så att varje rad motsvarar ett unikt ämne eller objekt, och varje kolumn motsvarar en enda variabel. Data kan dock registreras eller samlas in i många olika arrangemang, beroende på vad som är bekvämt eller kostnadseffektivt för datainsamlaren. Dessutom kan vi behöva att våra uppgifter ordnas i ett visst format för att kunna använda en specifik analys eller procedur. Det är här transponering eller omformning av en dataset kommer in för att spela.

enkel transponerar

det enklaste möjliga fallet med transponering växlar raderna och kolumnerna i en matris. Om det tillämpas på en traditionell dataset skulle det göra det så att det fanns en rad per variabel och en kolumn per ämne.

tänk till exempel på följande 2×3-matris (2 rader, 3 kolumner):

1 2 34 5 6

transponering av denna matris skulle göra den till en 3×2-matris (3 rader, 2 kolumner):

1 42 53 6

Lägg märke till att den första raden i matris 1 blir den första kolumnen i matris 2.

långa dataset

en” lång ” dataset innehåller mer än en rad per ämne och använder ett unikt ID för att identifiera varje ämne. Panel (eller longitudinell) data registreras ofta i detta” långa ” format.

Tänk på en klinik där patienter kommer in för möten. När patienter kommer in i kliniken registreras varje besök i klinikens register. Det vill säga, varje rad i ”möten” dataset motsvarar besök. En enda besökspost kan innehålla information om patientens namn, datum för besöket och patientens vikt under det besöket.

Patient1 Besök1 vikt
Patient1 Besök2 vikt
patient2 besök1 vikt
patient2 besök2 vikt
. . .
. . .
. . .
Patientn Besökn vikt
Patientn Besökn vikt

om du vill jämföra patientens vikt vid besök 1 till deras vikt vid besök 2, kanske du vill transponera data så att varje patient har en rad data som innehåller båda viktvärdena (dvs., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Weight1 Weight2

när du ska använda ”långa” formulärdata

statistiska programvarupaket kräver vanligtvis att data finns i ”långt” format för procedurer som:

  • tidsserier
  • blandade och flernivåmodeller

breda dataset

Du kan också föreställa dig den omvända situationen där du har en rad data per observation (en bred dataset) men du vill ha flera rader data med unika värden för en viss variabel (dvs. en lång dataset).

när man ska använda ”Bred” data

statistiska programvarupaket kräver vanligtvis att data är i ”bred” format för procedurer som:

  • Parade t-tester
  • upprepade åtgärder ANOVA
  • korrelation

Lämna ett svar

Din e-postadress kommer inte publiceras.