SAS Tutorials: Transponieren von Daten mit PROC TRANSPOSE

Idealerweise sind Datensätze so strukturiert, dass jede Zeile einem eindeutigen Subjekt oder Objekt entspricht und jede Spalte einer einzelnen Variablen entspricht. Daten können jedoch in vielen verschiedenen Anordnungen aufgezeichnet oder gesammelt werden, je nachdem, was für den Datensammler bequem oder kostengünstig ist. Darüber hinaus müssen wir unsere Daten möglicherweise in einem bestimmten Format anordnen, um eine bestimmte Analyse oder ein bestimmtes Verfahren durchführen zu können. Hier kommt das Transponieren oder Umformen eines Datensatzes ins Spiel.

Einfache Transponierungen

Der einfachste Fall der Transponierung wechselt die Zeilen und Spalten einer Matrix. Wenn es auf einen herkömmlichen Datensatz angewendet würde, würde dies dazu führen, dass es eine Zeile pro Variable und eine Spalte pro Betreff gäbe.

Betrachten Sie beispielsweise die folgende 2×3-Matrix (2 Zeilen, 3 Spalten):

1 2 34 5 6

Wenn Sie diese Matrix transponieren, wird sie zu einer 3×2-Matrix (3 Zeilen, 2 Spalten):

1 42 53 6

Beachten Sie, dass die erste Zeile von Matrix 1 zur ersten Spalte von Matrix 2 wird.

Lange Datensätze

Ein „langer“ Datensatz enthält mehr als eine Zeile pro Subjekt und verwendet eine eindeutige ID, um jedes Subjekt zu identifizieren. Panel- (oder Longitudinal-) Daten werden häufig in diesem „langen“ Format aufgezeichnet.

Betrachten Sie eine Klinik, in der Patienten zu Terminen kommen. Wenn Patienten in die Klinik kommen, wird jeder Besuch in den Aufzeichnungen der Klinik aufgezeichnet. Das heißt, jede Zeile des Datensatzes „Termine“ entspricht visit. Ein einzelner Besuchsdatensatz kann Informationen über den Namen des Patienten, das Datum des Besuchs und das Gewicht des Patienten während dieses Besuchs enthalten.

Patient1 Besuch1 Gewicht
Patient1 Besuch2 Gewicht
Patient2 Visit1 Gewicht
Patient2 Visit2 Gewicht
. . .
. . .
. . .
Patientn Visitn Gewicht
Patientn Visitn Gewicht

Wenn Sie um das Gewicht des Patienten bei Besuch 1 mit dem Gewicht bei Besuch 2 zu vergleichen, möchten Sie die Daten möglicherweise so transponieren, dass jeder Patient eine Datenzeile hat, die beide Gewichtswerte enthält (z., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Weight1 Weight2

Wann „lange“ Formulardaten zu verwenden sind

Statistische Softwarepakete erfordern typischerweise Daten im „langen“ Format für Prozeduren wie:

  • Zeitreihen
  • Gemischte und mehrstufige Modelle

Breite Datensätze

Sie können sich auch die umgekehrte Situation vorstellen, in der Sie eine Datenzeile pro Beobachtung haben (ein breiter Datensatz), aber Sie möchten mehrere Datenzeilen mit eindeutigen Werten einer bestimmten Variablen (dh einen langen Datensatz).

Wann „breite“ Daten zu verwenden sind

Statistische Softwarepakete erfordern typischerweise Daten im „breiten“ Format für Verfahren wie:

  • Gepaarte T-Tests
  • Wiederholte Messungen ANOVA
  • Korrelation

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.