idealiskt är dataset strukturerade så att varje rad motsvarar ett unikt ämne eller objekt, och varje kolumn motsvarar en enda variabel. Data kan dock registreras eller samlas in i många olika arrangemang, beroende på vad som är bekvämt eller kostnadseffektivt för datainsamlaren. Dessutom kan vi behöva att våra uppgifter ordnas i ett visst format för att kunna använda en specifik analys eller procedur. Det är här transponering eller omformning av en dataset kommer in för att spela.
enkel transponerar
det enklaste möjliga fallet med transponering växlar raderna och kolumnerna i en matris. Om det tillämpas på en traditionell dataset skulle det göra det så att det fanns en rad per variabel och en kolumn per ämne.
tänk till exempel på följande 2×3-matris (2 rader, 3 kolumner):
1 2 34 5 6
transponering av denna matris skulle göra den till en 3×2-matris (3 rader, 2 kolumner):
1 42 53 6
Lägg märke till att den första raden i matris 1 blir den första kolumnen i matris 2.
långa dataset
en” lång ” dataset innehåller mer än en rad per ämne och använder ett unikt ID för att identifiera varje ämne. Panel (eller longitudinell) data registreras ofta i detta” långa ” format.
Tänk på en klinik där patienter kommer in för möten. När patienter kommer in i kliniken registreras varje besök i klinikens register. Det vill säga, varje rad i ”möten” dataset motsvarar besök. En enda besökspost kan innehålla information om patientens namn, datum för besöket och patientens vikt under det besöket.
Patient1 | Besök1 | vikt |
Patient1 | Besök2 | vikt |
patient2 | besök1 | vikt | patient2 | besök2 | vikt |
. | . | . |
. | . | . |
. | . | . |
Patientn | Besökn | vikt | Patientn | Besökn | vikt |
om du vill jämföra patientens vikt vid besök 1 till deras vikt vid besök 2, kanske du vill transponera data så att varje patient har en rad data som innehåller båda viktvärdena (dvs., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
när du ska använda ”långa” formulärdata
statistiska programvarupaket kräver vanligtvis att data finns i ”långt” format för procedurer som:
- tidsserier
- blandade och flernivåmodeller
breda dataset
Du kan också föreställa dig den omvända situationen där du har en rad data per observation (en bred dataset) men du vill ha flera rader data med unika värden för en viss variabel (dvs. en lång dataset).
när man ska använda ”Bred” data
statistiska programvarupaket kräver vanligtvis att data är i ”bred” format för procedurer som:
- Parade t-tester
- upprepade åtgärder ANOVA
- korrelation