Fehlende Werte in Daten

Das Konzept der fehlenden Werte ist wichtig zu verstehen, um Daten erfolgreich zu verwalten. Wenn die fehlenden Werte vom Forscher nicht richtig behandelt werden, kann er / sie am Ende eine ungenaue Schlussfolgerung über die Daten ziehen. Aufgrund unsachgemäßer Handhabung unterscheidet sich das vom Forscher erzielte Ergebnis von denen, bei denen die fehlenden Werte vorhanden sind.

Item non-response tritt auf, wenn der Befragte aufgrund von Stress, Müdigkeit oder mangelndem Wissen nicht auf bestimmte Fragen antwortet. Der Befragte antwortet möglicherweise nicht, da einige Fragen sensibel sind. Diese fehlenden Antworten würden als fehlende Werte angesehen.

Umgang mit fehlenden Werten

Der Forscher kann die Daten verlassen oder eine Datenimputation durchführen, um sie zu ersetzen. Angenommen, die Anzahl der Fälle fehlender Werte ist extrem gering; Dann kann ein Experte diese Werte aus der Analyse streichen oder weglassen. In der statistischen Sprache kann der Forscher sie fallen lassen, wenn die Anzahl der Fälle weniger als 5% der Stichprobe beträgt.

Im Falle der multivariaten Analyse, wenn es eine größere Anzahl von fehlenden Werten gibt, dann kann es besser sein, diese Fälle fallen zu lassen (anstatt Imputation zu machen) und sie zu ersetzen. Andererseits kann in der univariaten Analyse die Imputation die Verzerrung in den Daten verringern, wenn die Werte zufällig fehlen.

Es gibt zwei Formen von zufällig fehlenden Werten:

  • MCAR: Fehlt völlig zufällig
  • MAR: Fehlt zufällig

Die erste Form fehlt völlig zufällig (MCAR). Dieses Formular liegt vor, wenn die fehlenden Werte zufällig über alle Beobachtungen verteilt sind. Dieses Formular kann durch Partitionieren der Daten in zwei Teile bestätigt werden: einen Satz, der die fehlenden Werte enthält, und den anderen, der die nicht fehlenden Werte enthält. Nach der Partitionierung der Daten wird der beliebteste Test, der so genannte t-Test der mittleren Differenz, durchgeführt, um zu überprüfen, ob in der Stichprobe ein Unterschied zwischen den beiden Datensätzen besteht.

Der Forscher sollte bedenken, dass er, wenn die Daten MCAR sind, eine paarweise oder eine listenweise Löschung fehlender Wertefälle wählen kann. Wenn die Daten jedoch nicht MCAR sind, wird eine Anrechnung durchgeführt, um sie zu ersetzen.

Die zweite Form fehlt zufällig (MAR). In MAR werden die fehlenden Werte nicht zufällig über Beobachtungen verteilt, sondern innerhalb einer oder mehrerer Unterstichproben verteilt. Diese Form ist häufiger als die vorherige.

Der nicht ignorierbare fehlende Wert ist die problematischste Form, bei der es sich um fehlende Werte handelt, die nicht zufällig über die Beobachtungen verteilt sind. In diesem Fall kann die Wahrscheinlichkeit nicht aus den Variablen im Modell vorhergesagt werden. Dies kann ignoriert werden, indem eine Datenimputation durchgeführt wird, um sie zu ersetzen.

In SPSS gibt es Schätzmethoden, die dem Forscher bestimmte statistische Techniken zur Schätzung der fehlenden Werte zur Verfügung stellen. Dies sind nämlich Regression, Maximum-Likelihood-Schätzung, listenweises oder paarweises Löschen, ungefähres Bayes-Bootstrap, Multiple-Data-Imputation und viele andere.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.