Brakujące wartości w danych

koncepcja brakujących wartości jest ważna do zrozumienia, aby skutecznie zarządzać danymi. Jeśli brakujące wartości nie są prawidłowo obsługiwane przez badacza, to on / ona może skończyć się sporządzeniem niedokładnego wnioskowania o danych. Z powodu niewłaściwej obsługi wynik uzyskany przez badacza będzie różnił się od tych, w których występują brakujące wartości.

Brak odpowiedzi występuje, gdy respondent nie odpowiada na pewne pytania z powodu stresu, zmęczenia lub braku wiedzy. Respondent może nie odpowiadać, ponieważ niektóre pytania są wrażliwe. Ten Brak odpowiedzi byłby uważany za brakujące wartości.

Obsługa brakujących wartości

badacz może zostawić dane lub wykonać imputację danych, aby je zastąpić. Załóżmy, że liczba przypadków brakujących wartości jest bardzo mała; następnie, badacz ekspert może upuścić lub pominąć te wartości z analizy. W języku statystycznym, jeśli liczba przypadków jest mniejsza niż 5% próbki, badacz może je upuścić.

w przypadku analizy wielowymiarowej, jeśli jest większa liczba brakujących wartości, to lepiej byłoby porzucić te przypadki (zamiast imputacji) i je zastąpić. Z drugiej strony, w analizie jednostajnej, imputacja może zmniejszyć ilość odchylenia w danych, jeśli wartości nie są losowe.

istnieją dwie formy losowych brakujących wartości:

  • MCAR: brakujący całkowicie losowo
  • MAR: brakujący losowo

pierwsza forma brakuje całkowicie losowo (MCAR). Ta forma istnieje, gdy brakujące wartości są losowo rozmieszczone we wszystkich obserwacjach. Formularz ten można potwierdzić dzieląc dane na dwie części: jedną zawierającą brakujące wartości, a drugą zawierającą brakujące wartości. Po rozdzieleniu danych przeprowadza się najpopularniejszy test, zwany testem t średniej różnicy, w celu sprawdzenia, czy istnieje jakaś różnica w próbce między dwoma zestawami danych.

badacz powinien pamiętać, że jeśli dane są MCAR, to może wybrać parowe lub listowe usunięcie brakujących przypadków wartości. Jeśli jednak dane nie są MCAR, wówczas przeprowadza się imputację w celu ich zastąpienia.

druga forma zaginęła losowo (MAR). W Mar brakujące wartości nie są losowo rozmieszczone w obserwacjach, ale są rozmieszczone w jednej lub kilku podpróbkach. Ta forma jest bardziej powszechna niż poprzednia.

brakująca wartość jest najbardziej problematyczną formą, która obejmuje te typy brakujących wartości, które nie są losowo rozmieszczone w obserwacjach. W tym przypadku prawdopodobieństwa nie można przewidzieć na podstawie zmiennych w modelu. Można to zignorować, wykonując imputację danych w celu ich zastąpienia.

istnieją metody szacowania w SPSS, które zapewniają badacz z pewnych technik statystycznych do oszacowania brakujących wartości. Są to mianowicie regresja, oszacowanie maksymalnego prawdopodobieństwa, usunięcie listy lub pary, przybliżony bayesowski bootstrap, wielokrotne przypisywanie danych i wiele innych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.