Idealerweise sind Datensätze so strukturiert, dass jede Zeile einem eindeutigen Subjekt oder Objekt entspricht und jede Spalte einer einzelnen Variablen entspricht. Daten können jedoch in vielen verschiedenen Anordnungen aufgezeichnet oder gesammelt werden, je nachdem, was für den Datensammler bequem oder kostengünstig ist. Darüber hinaus müssen wir unsere Daten möglicherweise in einem bestimmten Format anordnen, um eine bestimmte Analyse oder ein bestimmtes Verfahren durchführen zu können. Hier kommt das Transponieren oder Umformen eines Datensatzes ins Spiel.
Einfache Transponierungen
Der einfachste Fall der Transponierung wechselt die Zeilen und Spalten einer Matrix. Wenn es auf einen herkömmlichen Datensatz angewendet würde, würde dies dazu führen, dass es eine Zeile pro Variable und eine Spalte pro Betreff gäbe.
Betrachten Sie beispielsweise die folgende 2×3-Matrix (2 Zeilen, 3 Spalten):
1 2 34 5 6
Wenn Sie diese Matrix transponieren, wird sie zu einer 3×2-Matrix (3 Zeilen, 2 Spalten):
1 42 53 6
Beachten Sie, dass die erste Zeile von Matrix 1 zur ersten Spalte von Matrix 2 wird.
Lange Datensätze
Ein „langer“ Datensatz enthält mehr als eine Zeile pro Subjekt und verwendet eine eindeutige ID, um jedes Subjekt zu identifizieren. Panel- (oder Longitudinal-) Daten werden häufig in diesem „langen“ Format aufgezeichnet.
Betrachten Sie eine Klinik, in der Patienten zu Terminen kommen. Wenn Patienten in die Klinik kommen, wird jeder Besuch in den Aufzeichnungen der Klinik aufgezeichnet. Das heißt, jede Zeile des Datensatzes „Termine“ entspricht visit. Ein einzelner Besuchsdatensatz kann Informationen über den Namen des Patienten, das Datum des Besuchs und das Gewicht des Patienten während dieses Besuchs enthalten.
Patient1 | Besuch1 | Gewicht |
Patient1 | Besuch2 | Gewicht |
Patient2 | Visit1 | Gewicht |
Patient2 | Visit2 | Gewicht |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | Gewicht |
Patientn | Visitn | Gewicht |
Wenn Sie um das Gewicht des Patienten bei Besuch 1 mit dem Gewicht bei Besuch 2 zu vergleichen, möchten Sie die Daten möglicherweise so transponieren, dass jeder Patient eine Datenzeile hat, die beide Gewichtswerte enthält (z., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
Wann „lange“ Formulardaten zu verwenden sind
Statistische Softwarepakete erfordern typischerweise Daten im „langen“ Format für Prozeduren wie:
- Zeitreihen
- Gemischte und mehrstufige Modelle
Breite Datensätze
Sie können sich auch die umgekehrte Situation vorstellen, in der Sie eine Datenzeile pro Beobachtung haben (ein breiter Datensatz), aber Sie möchten mehrere Datenzeilen mit eindeutigen Werten einer bestimmten Variablen (dh einen langen Datensatz).
Wann „breite“ Daten zu verwenden sind
Statistische Softwarepakete erfordern typischerweise Daten im „breiten“ Format für Verfahren wie:
- Gepaarte T-Tests
- Wiederholte Messungen ANOVA
- Korrelation