Chybějící hodnoty v datech

pro úspěšnou správu dat je důležité pochopit koncept chybějících hodnot. Pokud chybí hodnoty nejsou zpracovány správně výzkumník, pak on / ona může skončit kreslení nepřesný závěr o datech. V důsledku nesprávné manipulace se výsledek získaný výzkumným pracovníkem bude lišit od těch, kde jsou přítomny chybějící hodnoty.

položka non-response nastane, když respondent nereaguje na určité otázky kvůli stresu, únavě nebo nedostatku znalostí. Respondent nemusí odpovědět, protože některé otázky jsou citlivé. Tento nedostatek odpovědí by byl považován za chybějící hodnoty.

zpracování chybějících hodnot

výzkumník může Data opustit nebo provést imputaci dat, aby je nahradil. Předpokládejme, že počet případů chybějících hodnot je extrémně malý; pak může odborný výzkumník tyto hodnoty z analýzy vynechat nebo vynechat. Ve statistickém jazyce, pokud je počet případů menší než 5% vzorku, může je výzkumník upustit.

v případě vícerozměrné analýzy, pokud existuje větší počet chybějících hodnot, může být lepší tyto případy upustit (spíše než imputaci) a nahradit je. Na druhou stranu, v jednorozměrné analýze, imputace může snížit množství zkreslení v datech, pokud hodnoty náhodně chybí.

Existují dvě formy náhodně chybějící hodnoty:

  • MCAR: Chybějící zcela náhodně
  • MAR: Chybějící náhodně

první forma je chybějící zcela náhodně (MCAR). Tento formulář existuje, když jsou chybějící hodnoty náhodně rozděleny do všech pozorování. Tento formulář lze potvrdit rozdělením dat na dvě části: jedna sada obsahující chybějící hodnoty a druhá obsahující chybějící hodnoty. Po rozdělení dat, nejvíce populární test, tzv. t-test průměrný rozdíl, se provádí za účelem ověření, zda existuje nějaký rozdíl ve vzorku mezi dvě datové sady.

výzkumník by měl mít na paměti, že pokud jsou data MCAR, může si vybrat párové nebo seznamové odstranění chybějících hodnotových případů. Pokud však data nejsou MCAR, provede se imputace k jejich nahrazení.

druhý formulář náhodně chybí (MAR). V MAR, chybějící hodnoty nejsou náhodně rozděleny mezi pozorování, ale jsou rozděleny do jednoho nebo více dílčích vzorků. Tento formulář je častější než předchozí.

neproblematická chybějící hodnota je nejproblematičtější forma, která zahrnuje ty typy chybějících hodnot, které nejsou náhodně rozděleny mezi pozorování. V tomto případě nelze pravděpodobnost předpovědět z proměnných v modelu. To lze ignorovat provedením imputace dat, která je nahradí.

v SPSS existují metody odhadu, které poskytují výzkumníkovi určité statistické techniky k odhadu chybějících hodnot. Jedná se zejména o regresi, odhad maximální věrohodnosti, vymazání seznamu nebo páru, přibližný bayesovský bootstrap, imputaci více dat a mnoho dalších.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.