欠損データの多重代入は、多変量解析における欠損データを処理するための魅力的な方法です。 欠損データに対する多重代入のアイデアは、Rubin(1977)によって最初に提案されました。
Procedure
以下は、1987年にRubinによって作成された欠損データに対する多重代入を行う手順です。
- 欠損データに対する多重代入の最初のステップは、ランダム変動を組み込んだ適切なモデルを使用して欠損値を代入することです。
- 欠損データの多重代入の第二のステップは、最初のステップを3-5回繰り返すことです。
- 欠損データの多重代入の第三のステップは、標準の完全なデータメソッドを使用して、各データセットに対して目的の分析を実行することです。
- 欠損データの多重代入の第四のステップは、単一点推定値を得るために、欠損値サンプル全体でパラメータ推定値の値を平均することです。
- 欠損データの多重代入の第五のステップは、欠損値推定値の二乗標準誤差を平均化することによって標準誤差を計算することです。 この後、研究者は、サンプル間の欠損値パラメータの分散を計算する必要があります。 最後に、研究者は、標準誤差を計算するために、欠損データの複数の代入で2つの量を組み合わせる必要があります。
特徴
欠損データの多重代入には、いくつかの望ましい特徴があります:
- 欠損データの多重代入は、研究者がランダム誤差からすべてのパラメータのほぼ公平な推定値を得ることを可能にする。 研究者は、欠損データの多重代入が行うことができる決定論的代入からこの結果を達成することはできません。
- 欠損データに対するこの複数の代入により、研究者は標準誤差の良好な推定値を得ることができます。 欠損データの多重代入は、研究者が追加の誤差を導入することができないため、単一代入とは異なります。
- 研究者は、設備の整ったソフトウェアなしで、あらゆる種類の分析のあらゆる種類のデータで欠損データの複数の代入を実行することができます。ただし、欠損データに対して複数の代入を実行する前に満たす必要がある特定の条件があります。
条件
欠損データの多重代入を実行する前に満たす必要がある条件:
- 欠損データの多重代入の最初の条件は、データがランダムに欠落している つまり、欠損データの多重代入の最初の条件は、特定の変数に対する欠損データの確率は他の観測変数に依存できるが、それ自体には依存できないことを
- 欠損データの多重代入の第二の条件は、値を代入するために研究者が使用するモデルが適切でなければならないということです。
- 欠損データの多重代入の第三の条件は、研究者が使用するモデルが、欠損データの多重代入に使用される他のモデルと一致する必要があることです。しかし、問題は、欠損データに対して複数の代入を実行しながら、研究者がそのような条件に違反することは非常に簡単であるということです。 これは、データがランダムに欠落していない欠損データに対して複数の代入が行われる場合があるためです。この問題を解決するために、研究者は無作為に欠落していないデータのモデルを推定します。
この問題を解決するために、研究者はデータのモデ しかし、そのようなモデルは複雑でテスト不可能であるため、実行するには設備の整ったソフトウェアが必要です。研究者が心に留めておくべきもう一つのことは、”ランダムに欠落”が満たされている場合、欠落データの多重代入によって得られた公平な推定値は、常に
関連ページ:
- データの欠損値