Multiple imputation for manglende data er en attraktiv metode til håndtering af manglende data i multivariat analyse. Ideen om flere imputationer for manglende data blev først foreslået af Rubin (1977).
Procedure
følgende er proceduren for udførelse af multiple imputation for manglende data, der blev oprettet af Rubin i 1987:
- det første trin i multiple imputation for manglende data er at tilregne de manglende værdier ved hjælp af en passende model, der inkorporerer tilfældig variation.
- det andet trin i flere imputationer for manglende data er at gentage det første trin 3-5 gange.
- det tredje trin i multiple imputation for manglende data er at udføre den ønskede analyse på hvert datasæt ved hjælp af standard, komplette datametoder.
- det fjerde trin i multiple imputation for manglende data er at gennemsnitlige værdierne for parameterestimaterne på tværs af de manglende værdiprøver for at opnå et enkelt punktsestimat.
- det femte trin i multiple imputation for manglende data er at beregne standardfejlene ved at beregne de kvadratiske standardfejl for de manglende værdiestimater. Herefter skal forskeren beregne variansen af den manglende værdiparameter på tværs af prøverne. Endelig skal forskeren kombinere de to mængder i flere imputationer for manglende data for at beregne standardfejlene.
funktioner
Multiple imputation for manglende data har flere ønskelige funktioner:
- Multiple imputation for manglende data gør det muligt for forskeren at opnå omtrent upartiske estimater af alle parametre fra den tilfældige fejl. Forskeren kan ikke opnå dette resultat fra deterministisk imputation, som den multiple imputation for manglende data kan gøre.
- denne multiple imputation for manglende data giver forskeren mulighed for at opnå gode skøn over standardfejlene. Den multiple imputation for manglende data er i modsætning til enkelt imputation, da det ikke tillader yderligere fejl at blive introduceret af forskeren.
- forskeren kan udføre flere imputationer for manglende data med enhver form for data i enhver form for analyse uden veludstyret program.
der er dog visse betingelser, der skal opfyldes, før der udføres flere imputationer for manglende data.
betingelser
betingelser, der skal opfyldes, før der udføres flere imputationer for manglende data:
- den første betingelse for flere imputationer for manglende data er, at dataene skal mangle tilfældigt. Med andre ord angiver den første betingelse for multipel imputation for manglende data, at sandsynligheden for de manglende data på en bestemt variabel kan afhænge af andre observerede variabler, men kan ikke afhænge af sig selv.
- den anden betingelse for multipel imputation for manglende data er, at den model, som forskeren bruger til at beregne værdierne, skal være passende.
- den tredje betingelse for multiple imputation for manglende data er, at den model, der bruges af forskeren, skal matche med den anden model, der bruges til multiple imputation for manglende data.
problemet er imidlertid, at det er ret let for forskeren at krænke sådanne forhold, mens han udfører flere imputationer for manglende data. Dette skyldes, at der er tilfælde af flere imputationer for manglende data, hvor dataene ikke mangler tilfældigt.
for at løse dette problem estimerer forskeren modellen for de data, der ikke mangler tilfældigt. Men sådanne modeller er komplekse og untestable, og de kræver derfor nogle veludstyrede programmer til at udføre.
en anden ting, som forskeren skal huske på, er, at hvis ‘mangler tilfældigt’ er tilfreds, er de upartiske estimater opnået ved flere imputationer for manglende data ikke altid lette at fortolke.
relaterede sider:
- manglende værdier i Data