欠損値の概念は、データを正常に管理するために理解することが重要です。 欠損値が研究者によって適切に処理されない場合、彼/彼女はデータについての不正確な推論を描くことになるかもしれません。 不適切な取り扱いのために、研究者によって得られた結果は、欠損値が存在するものとは異なる。
項目非応答は、回答者がストレス、疲労または知識の欠如のために特定の質問に応答しない場合に発生します。 いくつかの質問は敏感であるため、回答者が応答しない場合があります。 これらの答えの欠如は、欠損値とみなされます。
欠損値の処理
研究者は、データを残したり、それらを置き換えるためにデータ代入を行うことができます。 欠損値のケースの数が非常に少ないと仮定します。 統計的な言語では、ケースの数がサンプルの5%未満であれば、研究者はそれらを落とすことができます。
多変量解析の場合、欠損値の数が多い場合は、それらのケースを(代入を行うのではなく)削除して置き換える方が良い場合があります。
多変量解析の場合、欠損値の数が多い場合は、それらのケースを削除して置き換える方が良い場合があります。 一方、一変量解析では、値がランダムに欠落している場合、代入はデータのバイアスの量を減少させる可能性があります。
ランダムな欠損値には2つの形式があります。
- MCAR:完全にランダムに欠落しています
- MAR:ランダムに欠落しています
最初の形式は完全にランダムに欠落しています(MCAR)。 この形式は、欠損値がすべての観測値にランダムに分布している場合に存在します。 この形式は、データを欠損値を含むセットと非欠損値を含むセットの2つの部分に分割することによって確認できます。 データを分割した後、平均差のt検定と呼ばれる最も一般的な検定が実行され、2つのデータセット間のサンプルに差が存在するかどうかを確認します。研究者は、データがMCARである場合、欠損値のケースのペア単位またはリスト単位の削除を選択することができることに留意すべきである。
研究者は、データがMCARである場合、欠損値のケースのペア単位またはリスト単位の削除を選択することができることに留意すべきである。 ただし、データがMCARでない場合は、それらを置き換える代入が行われます。
第二の形式は、ランダムに欠落しています(MAR)。 MARでは、欠損値は観測値全体にランダムに分布するのではなく、一つ以上のサブサンプル内に分布します。 この形式は前の形式よりも一般的です。
無視できない欠損値は、観測全体にランダムに分布していない欠損値のタイプを含む最も問題のある形式です。 この場合、確率はモデル内の変数から予測することはできません。 これは、データ代入を実行してそれらを置き換えることによって無視できます。SPSSには、欠損値を推定するための特定の統計的手法を研究者に提供する推定方法があります。
欠損値を推定するための推定方法があります。
これらは、すなわち、回帰、最尤推定、リストワイズまたはペアワイズ削除、近似ベイズブートストラップ、複数のデータ代入、および他の多くです。