La imputación múltiple para datos faltantes es un método atractivo para manejar datos faltantes en el análisis multivariado. La idea de la imputación múltiple por datos faltantes fue propuesta por primera vez por Rubin (1977).
Procedimiento
El siguiente es el procedimiento para realizar la imputación múltiple por datos faltantes que fue creado por Rubin en 1987:
- El primer paso de la imputación múltiple por datos faltantes es imputar los valores faltantes utilizando un modelo apropiado que incorpora variación aleatoria.
- El segundo paso de la imputación múltiple para los datos faltantes es repetir el primer paso 3-5 veces.
- El tercer paso de la imputación múltiple para los datos faltantes es realizar el análisis deseado en cada conjunto de datos utilizando métodos de datos completos estándar.
- El cuarto paso de la imputación múltiple para los datos faltantes es promediar los valores de las estimaciones de parámetros en las muestras de valores faltantes para obtener una estimación puntual única.
- El quinto paso de la imputación múltiple para los datos faltantes es calcular los errores estándar promediando los errores estándar cuadrados de las estimaciones de valores faltantes. Después de esto, el investigador debe calcular la varianza del parámetro de valor faltante en las muestras. Finalmente, el investigador debe combinar las dos cantidades en imputación múltiple para los datos faltantes para calcular los errores estándar.
Características
La imputación múltiple por datos faltantes tiene varias características deseables:
- La imputación múltiple por datos faltantes hace posible que el investigador obtenga estimaciones aproximadamente imparciales de todos los parámetros a partir del error aleatorio. El investigador no puede lograr este resultado a partir de la imputación determinista, lo que puede hacer la imputación múltiple por datos faltantes.
- Esta imputación múltiple por datos faltantes permite al investigador obtener buenas estimaciones de los errores estándar. La imputación múltiple por datos faltantes es diferente de la imputación única, ya que no permite que el investigador introduzca errores adicionales.
- El investigador puede realizar múltiples imputaciones por datos faltantes con cualquier tipo de datos en cualquier tipo de análisis, sin software bien equipado.
Sin embargo, hay ciertas condiciones que deben cumplirse antes de realizar una imputación múltiple por datos faltantes.
Condiciones
Condiciones que deben cumplirse antes de realizar una imputación múltiple para los datos faltantes:
- La primera condición para la imputación múltiple para los datos faltantes es que los datos deben faltar al azar. En otras palabras, la primera condición para la imputación múltiple de datos faltantes establece que la probabilidad de los datos faltantes en una variable en particular puede depender de otras variables observadas, pero no puede depender de sí misma.
- La segunda condición para la imputación múltiple de datos faltantes es que el modelo utilizado por el investigador para imputar los valores sea apropiado.
- La tercera condición para la imputación múltiple por datos faltantes es que el modelo utilizado por el investigador debe coincidir con el otro modelo que se utiliza para la imputación múltiple por datos faltantes.
Sin embargo, el problema es que es bastante fácil para el investigador violar tales condiciones mientras realiza múltiples imputaciones por datos faltantes. Esto se debe a que hay casos de imputación múltiple por datos faltantes en los que los datos no faltan al azar.
Para resolver este problema, el investigador estima el modelo para los datos que no faltan al azar. Pero estos modelos son complejos e imposibles de probar, y por lo tanto requieren un software bien equipado para funcionar.
Otra cosa que el investigador debe tener en cuenta es que si se satisface la «falta al azar», las estimaciones imparciales obtenidas por imputación múltiple de datos faltantes no siempre son fáciles de interpretar.
Páginas relacionadas:
- Valores faltantes en los datos