Hiányzó értékek az adatokban

a hiányzó értékek fogalmát fontos megérteni az adatok sikeres kezelése érdekében. Ha a hiányzó értékeket a kutató nem kezeli megfelelően, akkor végül pontatlan következtetést vonhat le az adatokról. A nem megfelelő kezelés miatt a kutató által kapott eredmény különbözik azoktól, ahol a hiányzó értékek jelen vannak.

tétel nem válasz akkor fordul elő, ha a válaszadó stressz, fáradtság vagy tudáshiány miatt nem válaszol bizonyos kérdésekre. Előfordulhat, hogy a válaszadó nem válaszol, mert egyes kérdések érzékenyek. Ezeket a válaszok hiányát hiányzó értékeknek tekintik.

a hiányzó értékek kezelése

a kutató elhagyhatja az adatokat, vagy adatimputációt végezhet azok helyettesítésére. Tegyük fel, hogy a hiányzó értékek száma rendkívül kicsi; akkor egy szakértő kutató eldobhatja vagy kihagyhatja ezeket az értékeket az elemzésből. Statisztikai nyelven, ha az esetek száma kevesebb, mint a minta 5% – a, akkor a kutató eldobhatja őket.

többváltozós elemzés esetén, ha nagyobb számú hiányzó érték van, akkor jobb, ha ezeket az eseteket eldobjuk (ahelyett, hogy imputálnánk), és kicseréljük őket. Másrészt az egyváltozós elemzésben az imputáció csökkentheti az adatok torzításának mértékét, ha az értékek véletlenszerűen hiányoznak.

a véletlenszerűen hiányzó értékeknek két formája van:

  • MCAR: teljesen véletlenszerűen hiányzik
  • MAR: véletlenszerűen hiányzik

az első forma teljesen véletlenszerűen hiányzik (MCAR). Ez az űrlap akkor létezik, ha a hiányzó értékek véletlenszerűen oszlanak meg az összes megfigyelés között. Ez az űrlap megerősíthető az adatok két részre osztásával: az egyik a hiányzó értékeket tartalmazza, a másik pedig a nem hiányzó értékeket tartalmazza. Az adatok particionálása után a legnépszerűbb tesztet, az átlagos különbség t-tesztjét hajtják végre annak ellenőrzésére, hogy van-e különbség a mintában a két adatkészlet között.

a kutatónak szem előtt kell tartania, hogy ha az adatok MCAR-ok, akkor választhat páronként vagy listánként a hiányzó érték esetek törlését. Ha azonban az adatok nem MCAR, akkor az imputációt helyettesítik.

a második forma véletlenszerűen hiányzik (MAR). MAR-ban a hiányzó értékek nem véletlenszerűen oszlanak el a megfigyelések között, hanem egy vagy több almintán belül oszlanak meg. Ez a forma gyakoribb, mint az előző.

a nem figyelmen kívül hagyható hiányzó érték a legproblémásabb forma, amely magában foglalja azokat a hiányzó értékeket, amelyek nem véletlenszerűen oszlanak meg a megfigyelések között. Ebben az esetben a valószínűség nem jósolható meg a modell változóiból. Ezt figyelmen kívül lehet hagyni az adatok imputálásának végrehajtásával, hogy helyettesítsék őket.

az SPSS-ben vannak olyan becslési módszerek, amelyek bizonyos statisztikai technikákat biztosítanak a kutató számára a hiányzó értékek becsléséhez. Ezek a következők: regresszió, maximális valószínűség becslés, lista-vagy páronkénti törlés, hozzávetőleges Bayes-féle bootstrap, többszörös adatimputáció és még sok más.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.