Idealmente, los conjuntos de datos están estructurados de manera que cada fila corresponda a un sujeto u objeto único, y cada columna corresponda a una sola variable. Sin embargo, los datos se pueden registrar o recopilar en muchos arreglos diferentes, dependiendo de lo que sea conveniente o rentable para el recopilador de datos. Además, es posible que necesitemos organizar nuestros datos en un formato particular para utilizar un análisis o procedimiento específico. Aquí es donde entra en juego la transposición o la remodelación de un conjunto de datos.
Transposiciones simples
El caso más simple posible de transponer cambia las filas y columnas de una matriz. Si se aplica a un conjunto de datos tradicional, esto haría que hubiera una fila por variable y una columna por sujeto.
Por ejemplo, considere la siguiente matriz 2×3 (2 filas, 3 columnas):
1 2 34 5 6
La transposición de esta matriz la convertiría en una matriz 3×2 (3 filas, 2 columnas):
1 42 53 6
Observe que la primera fila de la matriz 1 se convierte en la primera columna de la matriz 2.
Conjuntos de datos largos
Un conjunto de datos» largo » contiene más de una fila por sujeto y utiliza un ID único para identificar a cada sujeto. Los datos de panel (o longitudinales) a menudo se registran en este formato «largo».
Considere una clínica donde los pacientes acudan a las citas. A medida que los pacientes ingresan a la clínica, cada visita se registra en los registros de la clínica. Es decir, cada fila del conjunto de datos» citas » corresponde a visit. Un registro de una sola visita puede contener información sobre el nombre del paciente, la fecha de la visita y el peso del paciente durante esa visita.
Patient1 | Visit1 | Peso |
Patient1 | Visit2 | Peso |
Paciente2 | Visit1 | Peso |
Paciente2 | Visit2 | Peso |
. | . | . |
. | . | . |
. | . | . |
Patientn | Visitn | Peso |
Patientn | Visitn | Peso |
Si desea comparar el peso del paciente en la visita 1 con su peso en la visita 2, es posible que desee transponer los datos para que cada paciente tenga una línea de datos que incluya ambos valores de peso (p. ej., a wide dataset), like below:
Patient1 | Weight1 | Weight2 |
Patient2 | Weight1 | Weight2 |
. | . | . |
. | . | . |
. | . | . |
Patientn | Weight1 | Weight2 |
Cuándo usar datos de formato «largo»
Los paquetes de software estadístico normalmente requieren que los datos estén en formato «largo» para los procedimientos como:
- Series temporales
- Modelos mixtos y multinivel
Conjuntos de datos amplios
También puede imaginar la situación inversa en la que tiene una línea de datos por observación (un conjunto de datos amplio) pero desea varias líneas de datos con valores únicos de una determinada variable (es decir, un conjunto de datos largo).
Cuándo usar datos «amplios»
Los paquetes de software estadístico normalmente requieren que los datos estén en formato «amplio» para procedimientos como:
- Pruebas t emparejadas
- ANOVA de medidas repetidas
- Correlación