SAS Tutorials: gegevens transponeren met behulp van PROC TRANSPOSE

idealiter zijn datasets zo gestructureerd dat elke rij overeenkomt met één uniek onderwerp of object, en elke kolom correspondeert met één variabele. Gegevens kunnen echter in veel verschillende regelingen worden vastgelegd of verzameld, afhankelijk van wat handig of kosteneffectief is voor de gegevensverzamelaar. Bovendien kan het nodig zijn dat onze gegevens in een bepaald formaat worden gerangschikt om een specifieke analyse of procedure te gebruiken. Dit is waar het transponeren of hervormen van een dataset komt om te spelen.

eenvoudige transposes

het eenvoudigst mogelijke geval van transponeren schakelt de rijen en kolommen van een matrix. Indien toegepast op een traditionele dataset, zou dit het zo maken dat er één rij per variabele en één kolom per onderwerp was.

neem bijvoorbeeld de volgende 2×3 matrix (2 rijen, 3 kolommen):

1 2 34 5 6

transponeren van deze matrix zou het veranderen in een 3×2 matrix (3 rijen, 2 kolommen):

1 42 53 6

merk op dat de eerste rij van matrix 1 de eerste kolom van matrix 2 wordt.

lange datasets

een “lange” dataset bevat meer dan één rij per onderwerp en gebruikt een unieke ID om elk onderwerp te identificeren. Paneel (of longitudinale) gegevens worden vaak geregistreerd in dit” lange ” formaat.

overweeg een kliniek waar patiënten komen voor afspraken. Als patiënten in de kliniek komen, wordt elk bezoek opgenomen in de dossiers van de kliniek. Dat wil zeggen dat elke rij van de dataset “afspraken” overeenkomt met bezoeken. Een enkel bezoekverslag kan informatie bevatten over de naam van de patiënt, de datum van het bezoek en het gewicht van de patiënt tijdens dat bezoek.

Patiënten1 Visit1 gewicht
Patiënten2 visit1 gewicht
patiënten2 visit2 gewicht
. . .
. . .
. . .
patiënten Visitn gewicht patiënten Visitn gewicht

Als u wilt vergelijk het gewicht van de patiënt bij bezoek 1 met het gewicht van de patiënt bij bezoek 2, u zou de gegevens kunnen transponeren zodat elke patiënt één regel met gegevens heeft die beide gewichtswaarden bevat (d.w.z., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Weight1 Weight2

Bij het gebruik van de “lange” form-data

de Statistische software pakketten vereisen meestal dat de gegevens worden in een “lange” formaat voor procedures zoals:

  • Time series
  • Gemengde en multilevel modellen

Grote datasets

je kunt Je ook voorstellen de omgekeerde situatie waarin je een regel met gegevens per observatie (een grote dataset) maar je wilt met meerdere lijnen van gegevens met unieke waarden van een bepaalde variabele (d.w.z. een lange dataset).

wanneer “wide” – gegevens moeten worden gebruikt

statistische softwarepakketten vereisen doorgaans dat de gegevens in “wide” – formaat zijn voor procedures als:

  • gepaarde t-tests
  • herhaalde metingen ANOVA
  • correlatie

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.