idealiter zijn datasets zo gestructureerd dat elke rij overeenkomt met één uniek onderwerp of object, en elke kolom correspondeert met één variabele. Gegevens kunnen echter in veel verschillende regelingen worden vastgelegd of verzameld, afhankelijk van wat handig of kosteneffectief is voor de gegevensverzamelaar. Bovendien kan het nodig zijn dat onze gegevens in een bepaald formaat worden gerangschikt om een specifieke analyse of procedure te gebruiken. Dit is waar het transponeren of hervormen van een dataset komt om te spelen.
eenvoudige transposes
het eenvoudigst mogelijke geval van transponeren schakelt de rijen en kolommen van een matrix. Indien toegepast op een traditionele dataset, zou dit het zo maken dat er één rij per variabele en één kolom per onderwerp was.
neem bijvoorbeeld de volgende 2×3 matrix (2 rijen, 3 kolommen):
1 2 34 5 6
transponeren van deze matrix zou het veranderen in een 3×2 matrix (3 rijen, 2 kolommen):
1 42 53 6
merk op dat de eerste rij van matrix 1 de eerste kolom van matrix 2 wordt.
lange datasets
een “lange” dataset bevat meer dan één rij per onderwerp en gebruikt een unieke ID om elk onderwerp te identificeren. Paneel (of longitudinale) gegevens worden vaak geregistreerd in dit” lange ” formaat.
overweeg een kliniek waar patiënten komen voor afspraken. Als patiënten in de kliniek komen, wordt elk bezoek opgenomen in de dossiers van de kliniek. Dat wil zeggen dat elke rij van de dataset “afspraken” overeenkomt met bezoeken. Een enkel bezoekverslag kan informatie bevatten over de naam van de patiënt, de datum van het bezoek en het gewicht van de patiënt tijdens dat bezoek.
Patiënten1 | Visit1 | gewicht | Patiënten2 | visit1 | gewicht |
patiënten2 | visit2 | gewicht | |||
. | . | . | |||
. | . | . | |||
. | . | . | |||
patiënten | Visitn | gewicht | patiënten | Visitn | gewicht |
Als u wilt vergelijk het gewicht van de patiënt bij bezoek 1 met het gewicht van de patiënt bij bezoek 2, u zou de gegevens kunnen transponeren zodat elke patiënt één regel met gegevens heeft die beide gewichtswaarden bevat (d.w.z., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
Bij het gebruik van de “lange” form-data
de Statistische software pakketten vereisen meestal dat de gegevens worden in een “lange” formaat voor procedures zoals:
- Time series
- Gemengde en multilevel modellen
Grote datasets
je kunt Je ook voorstellen de omgekeerde situatie waarin je een regel met gegevens per observatie (een grote dataset) maar je wilt met meerdere lijnen van gegevens met unieke waarden van een bepaalde variabele (d.w.z. een lange dataset).
wanneer “wide” – gegevens moeten worden gebruikt
statistische softwarepakketten vereisen doorgaans dat de gegevens in “wide” – formaat zijn voor procedures als:
- gepaarde t-tests
- herhaalde metingen ANOVA
- correlatie