Valori lipsă în date

conceptul de valori lipsă este important de înțeles pentru a gestiona cu succes datele. Dacă valorile lipsă nu sunt tratate corect de către cercetător, atunci el/ea poate ajunge să tragă o inferență inexactă despre date. Datorită manipulării necorespunzătoare, rezultatul obținut de cercetător va diferi de cele în care sunt prezente valorile lipsă.

non-răspunsul apare atunci când respondentul nu răspunde la anumite întrebări din cauza stresului, oboselii sau lipsei de cunoștințe. Este posibil ca respondentul să nu răspundă, deoarece unele întrebări sunt sensibile. Aceste lipse de răspunsuri ar fi considerate valori lipsă.

manipularea valorilor lipsă

cercetătorul poate lăsa datele sau poate face imputarea datelor pentru a le înlocui. Să presupunem că numărul de cazuri de valori lipsă este extrem de mic; atunci, un cercetător expert poate scădea sau omite aceste valori din analiză. În limbajul statistic, dacă numărul cazurilor este mai mic de 5% din eșantion, atunci cercetătorul le poate renunța.

în cazul analizei multivariate, dacă există un număr mai mare de valori lipsă, atunci poate fi mai bine să renunțați la aceste cazuri (decât să imputați) și să le înlocuiți. Pe de altă parte, în analiza univariată, imputarea poate reduce cantitatea de părtinire din date, dacă valorile lipsesc la întâmplare.

există două forme de valori care lipsesc aleatoriu:

  • MCAR: lipsește complet la întâmplare
  • MAR: lipsește la întâmplare

prima formă lipsește complet la întâmplare (MCAR). Acest formular există atunci când valorile lipsă sunt distribuite aleatoriu în toate observațiile. Acest formular poate fi confirmat prin partiționarea datelor în două părți: un set care conține valorile lipsă și celălalt care conține valorile care nu lipsesc. După partiționarea datelor, cel mai popular test, numit testul t al diferenței medii, este efectuat pentru a verifica dacă există vreo diferență în eșantion între cele două seturi de date.

cercetătorul ar trebui să țină cont de faptul că, dacă datele sunt MCAR, atunci poate alege o ștergere în pereche sau o listă a cazurilor de valoare lipsă. Dacă, totuși, datele nu sunt MCAR, atunci se efectuează imputarea înlocuirii acestora.

a doua formă lipsește la întâmplare (MAR). În MAR, valorile lipsă nu sunt distribuite aleatoriu între observații, ci sunt distribuite în unul sau mai multe sub-eșantioane. Această formă este mai frecventă decât cea anterioară.

valoarea lipsă non-ignorabilă este forma cea mai problematică care implică acele tipuri de valori lipsă care nu sunt distribuite aleatoriu între observații. În acest caz, probabilitatea nu poate fi prezisă din variabilele din model. Acest lucru poate fi ignorat prin efectuarea imputării datelor pentru a le înlocui.

există metode de estimare în SPSS care oferă cercetătorului anumite tehnici statistice pentru estimarea valorilor lipsă. Acestea sunt și anume regresia, estimarea probabilității maxime, ștergerea în funcție de listă sau pereche, bootstrap Bayesian aproximativ, imputarea datelor multiple și multe altele.

Lasă un răspuns

Adresa ta de email nu va fi publicată.