Tutoriales SAS: Transponer datos usando PROC TRANSPOSE

Idealmente, los conjuntos de datos están estructurados de manera que cada fila corresponda a un sujeto u objeto único, y cada columna corresponda a una sola variable. Sin embargo, los datos se pueden registrar o recopilar en muchos arreglos diferentes, dependiendo de lo que sea conveniente o rentable para el recopilador de datos. Además, es posible que necesitemos organizar nuestros datos en un formato particular para utilizar un análisis o procedimiento específico. Aquí es donde entra en juego la transposición o la remodelación de un conjunto de datos.

Transposiciones simples

El caso más simple posible de transponer cambia las filas y columnas de una matriz. Si se aplica a un conjunto de datos tradicional, esto haría que hubiera una fila por variable y una columna por sujeto.

Por ejemplo, considere la siguiente matriz 2×3 (2 filas, 3 columnas):

1 2 34 5 6

La transposición de esta matriz la convertiría en una matriz 3×2 (3 filas, 2 columnas):

1 42 53 6

Observe que la primera fila de la matriz 1 se convierte en la primera columna de la matriz 2.

Conjuntos de datos largos

Un conjunto de datos» largo » contiene más de una fila por sujeto y utiliza un ID único para identificar a cada sujeto. Los datos de panel (o longitudinales) a menudo se registran en este formato «largo».

Considere una clínica donde los pacientes acudan a las citas. A medida que los pacientes ingresan a la clínica, cada visita se registra en los registros de la clínica. Es decir, cada fila del conjunto de datos» citas » corresponde a visit. Un registro de una sola visita puede contener información sobre el nombre del paciente, la fecha de la visita y el peso del paciente durante esa visita.

Patient1 Visit1 Peso
Patient1 Visit2 Peso
Paciente2 Visit1 Peso
Paciente2 Visit2 Peso
. . .
. . .
. . .
Patientn Visitn Peso
Patientn Visitn Peso

Si desea comparar el peso del paciente en la visita 1 con su peso en la visita 2, es posible que desee transponer los datos para que cada paciente tenga una línea de datos que incluya ambos valores de peso (p. ej., a wide dataset), like below:

Patient1 Weight1 Weight2
Patient2 Weight1 Weight2
. . .
. . .
. . .
Patientn Weight1 Weight2

Cuándo usar datos de formato «largo»

Los paquetes de software estadístico normalmente requieren que los datos estén en formato «largo» para los procedimientos como:

  • Series temporales
  • Modelos mixtos y multinivel

Conjuntos de datos amplios

También puede imaginar la situación inversa en la que tiene una línea de datos por observación (un conjunto de datos amplio) pero desea varias líneas de datos con valores únicos de una determinada variable (es decir, un conjunto de datos largo).

Cuándo usar datos «amplios»

Los paquetes de software estadístico normalmente requieren que los datos estén en formato «amplio» para procedimientos como:

  • Pruebas t emparejadas
  • ANOVA de medidas repetidas
  • Correlación

Deja una respuesta

Tu dirección de correo electrónico no será publicada.