Multiple Imputation for Missing Data

Multiple imputation for missing data je atraktivní metoda pro zpracování chybějících dat v multivariační analýze. Myšlenka vícenásobné imputace chybějících dat byla poprvé navržena Rubinem (1977).

Postup

následující je postup při provádění vícenásobné imputace chybějících údajů, která byla vytvořena Rubin v roce 1987:

  • první krok vícenásobné imputace chybějících údajů je připisují chybějící hodnoty pomocí vhodného modelu, který zahrnuje náhodné variace.
  • druhým krokem vícenásobné imputace chybějících dat je opakování prvního kroku 3-5krát.
  • třetím krokem vícenásobné imputace chybějících dat je provedení požadované analýzy každé sady dat pomocí standardních úplných datových metod.
  • čtvrtý krok vícenásobné imputace chybějících údajů je průměrné hodnoty parametrů přes chybějící hodnoty vzorků za účelem získání jednoho bodu odhadu.
  • pátým krokem vícenásobné imputace chybějících dat je výpočet standardních chyb zprůměrováním čtvercových standardních chyb chybějících odhadů hodnot. Poté musí výzkumník vypočítat rozptyl chybějícího parametru hodnoty napříč vzorky. Nakonec musí výzkumník kombinovat obě veličiny do vícenásobné imputace chybějících dat pro výpočet standardních chyb.

funkce

vícenásobná imputace chybějících dat má několik žádoucích funkcí:

  • vícenásobná imputace chybějících dat umožňuje výzkumníkovi získat přibližně nezaujaté odhady všech parametrů z náhodné chyby. Výzkumník nemůže dosáhnout tohoto výsledku deterministickou imputací, kterou může udělat vícenásobná imputace chybějících dat.
  • tato vícenásobná imputace chybějících dat umožňuje výzkumníkovi získat dobré odhady standardních chyb. Vícenásobná imputace chybějících dat je na rozdíl od jediné imputace, protože neumožňuje, aby výzkumník zavedl další chybu.
  • výzkumník může provádět vícenásobnou imputaci chybějících dat s jakýmkoli druhem dat v jakékoli analýze, bez dobře vybaveného softwaru.

existují však určité podmínky, které by měly být splněny před provedením vícenásobné imputace chybějících dat.

Podmínky

Podmínky, které by měly být splněny před provedením mnohonásobné imputace chybějících údajů:

  • první podmínkou pro vícenásobnou imputaci chybějících dat je, že data by měla být chybějící náhodně. Jinými slovy, první podmínka pro vícenásobnou imputaci chybějících dat uvádí, že pravděpodobnost chybějících dat na konkrétní proměnné může záviset na jiných pozorovaných proměnných, ale nemůže záviset na sobě.
  • druhou podmínkou pro vícenásobnou imputaci chybějících dat je, že model, který výzkumník používá k imputaci hodnot, by měl být vhodný.
  • třetí podmínkou pro vícenásobnou imputaci chybějících dat je, že model, který používá výzkumný pracovník, by se měl shodovat s jiným modelem, který se používá pro vícenásobnou imputaci chybějících dat.

problém je však v tom, že je pro výzkumníka poměrně snadné porušit takové podmínky při provádění vícenásobné imputace chybějících dat. Je to proto, že existují případy vícenásobné imputace chybějících dat, kde data náhodně chybí.

za účelem vyřešení tohoto problému výzkumník odhaduje model pro data, která náhodně chybí. Ale takové modely jsou složité a netestovatelné, a proto vyžadují nějaký dobře vybavený software k provedení.

Další věc, výzkumník by měl mít na paměti, je, že pokud se chybějící náhodně je splněna, pak nestranné odhady získané pomocí vícenásobné imputace chybějících údajů není vždy snadné interpretovat.

související stránky:

  • chybějící hodnoty v datech

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.