Multiple Imputation für fehlende Daten ist eine attraktive Methode für den Umgang mit fehlenden Daten in der multivariaten Analyse. Die Idee der multiplen Imputation für fehlende Daten wurde erstmals von Rubin (1977) vorgeschlagen.
Vorgehensweise
Das folgende ist das Verfahren zur Durchführung der multiplen Imputation für fehlende Daten, die 1987 von Rubin erstellt wurde:
- Der erste Schritt der multiplen Imputation für fehlende Daten besteht darin, die fehlenden Werte mithilfe eines geeigneten Modells zu imputieren, das zufällige Variationen enthält.
- Der zweite Schritt der multiplen Imputation für fehlende Daten besteht darin, den ersten Schritt 3-5 mal zu wiederholen.
- Der dritte Schritt der multiplen Imputation für fehlende Daten besteht darin, die gewünschte Analyse für jeden Datensatz unter Verwendung von standardmäßigen, vollständigen Datenmethoden durchzuführen.
- Der vierte Schritt der multiplen Imputation für fehlende Daten besteht darin, die Werte der Parameterschätzungen über die Stichproben mit fehlenden Werten zu mitteln, um eine Einzelpunktschätzung zu erhalten.
- Der fünfte Schritt der multiplen Imputation für fehlende Daten besteht darin, die Standardfehler zu berechnen, indem die quadratischen Standardfehler der fehlenden Wertschätzungen gemittelt werden. Danach muss der Forscher die Varianz des Parameters fehlender Wert über die Stichproben berechnen. Schließlich muss der Forscher die beiden Größen in mehrfacher Imputation für fehlende Daten kombinieren, um die Standardfehler zu berechnen.
Eigenschaften
Mehrfachimputation für fehlende Daten hat mehrere wünschenswerte Eigenschaften:
- Die mehrfache Imputation für fehlende Daten ermöglicht es dem Forscher, annähernd unvoreingenommene Schätzungen aller Parameter aus dem Zufallsfehler zu erhalten. Der Forscher kann dieses Ergebnis nicht durch deterministische Imputation erreichen, was die Mehrfachimputation für fehlende Daten tun kann.
- Diese mehrfache Imputation für fehlende Daten ermöglicht es dem Forscher, gute Schätzungen der Standardfehler zu erhalten. Die Mehrfachimputation für fehlende Daten unterscheidet sich von der Einzelimputation, da der Forscher keinen zusätzlichen Fehler einführen kann.
- Der Forscher kann mehrere Imputationen für fehlende Daten mit jeder Art von Daten in jeder Art von Analyse durchführen, ohne gut ausgestattete Software.
Es gibt jedoch bestimmte Bedingungen, die erfüllt sein sollten, bevor eine Mehrfachimputation für fehlende Daten durchgeführt wird.
Bedingungen
Bedingungen, die erfüllt sein sollten, bevor eine Mehrfachimputation für fehlende Daten durchgeführt wird:
- Die erste Bedingung für die Mehrfachimputation für fehlende Daten ist, dass die Daten zufällig fehlen sollten. Mit anderen Worten, die erste Bedingung für die Mehrfachimputation für fehlende Daten besagt, dass die Wahrscheinlichkeit der fehlenden Daten für eine bestimmte Variable von anderen beobachteten Variablen abhängen kann, jedoch nicht von sich selbst abhängen kann.
- Die zweite Bedingung für die mehrfache Imputation fehlender Daten ist, dass das Modell, das der Forscher zur Imputation der Werte verwendet, angemessen sein sollte.
- Die dritte Bedingung für die Mehrfachimputation für fehlende Daten ist, dass das vom Forscher verwendete Modell mit dem anderen Modell übereinstimmt, das für die Mehrfachimputation für fehlende Daten verwendet wird.
Das Problem ist jedoch, dass es für den Forscher ziemlich einfach ist, solche Bedingungen zu verletzen, während er mehrere Imputationen für fehlende Daten durchführt. Dies liegt daran, dass es Fälle von mehrfacher Imputation für fehlende Daten gibt, bei denen die Daten nicht zufällig fehlen.
Um dieses Problem zu lösen, schätzt der Forscher das Modell für die Daten, die nicht zufällig fehlen. Solche Modelle sind jedoch komplex und nicht testbar und erfordern daher eine gut ausgestattete Software.Eine andere Sache, die der Forscher beachten sollte, ist, dass, wenn ‚zufällig fehlt‘ erfüllt ist, die unvoreingenommenen Schätzungen, die durch mehrfache Imputation für fehlende Daten erhalten werden, nicht immer leicht zu interpretieren sind.
Verwandte Seiten:
- Fehlende Werte in Daten