Valori mancanti nei dati

Il concetto di valori mancanti è importante da comprendere per gestire correttamente i dati. Se i valori mancanti non sono gestiti correttamente dal ricercatore, allora lui/lei può finire per disegnare un’inferenza imprecisa sui dati. A causa di un uso improprio, il risultato ottenuto dal ricercatore sarà diverso da quelli in cui sono presenti i valori mancanti.

La mancata risposta dell’elemento si verifica quando il rispondente non risponde a determinate domande a causa di stress, affaticamento o mancanza di conoscenza. Il rispondente potrebbe non rispondere perché alcune domande sono sensibili. Questa mancanza di risposte sarebbe considerata valori mancanti.

Gestione dei valori mancanti

Il ricercatore può lasciare i dati o fare imputazione dei dati per sostituirli. Supponiamo che il numero di casi di valori mancanti sia estremamente piccolo; quindi, un ricercatore esperto può eliminare o omettere quei valori dall’analisi. Nel linguaggio statistico, se il numero dei casi è inferiore al 5% del campione, il ricercatore può eliminarli.

Nel caso dell’analisi multivariata, se c’è un numero maggiore di valori mancanti, allora può essere meglio eliminare quei casi (piuttosto che fare imputazione) e sostituirli. D’altra parte, nell’analisi univariata, l’imputazione può diminuire la quantità di bias nei dati, se i valori mancano a caso.

Ci sono due forme di valori mancanti casualmente:

  • MCAR: Manca completamente a caso
  • MAR: Manca a caso

La prima forma manca completamente a caso (MCAR). Questo modulo esiste quando i valori mancanti sono distribuiti casualmente in tutte le osservazioni. Questo modulo può essere confermato suddividendo i dati in due parti: un set contenente i valori mancanti e l’altro contenente i valori non mancanti. Dopo il partizionamento dei dati, il test più popolare, chiamato t-test della differenza media, viene eseguito al fine di verificare se esiste alcuna differenza nel campione tra i due set di dati.

Il ricercatore dovrebbe tenere presente che se i dati sono MCAR, allora può scegliere una cancellazione a coppie o a lista di casi di valore mancanti. Se, tuttavia, i dati non sono MCAR, viene eseguita l’imputazione per sostituirli.

Il secondo modulo manca a caso (MAR). In MAR, i valori mancanti non sono distribuiti casualmente tra le osservazioni ma sono distribuiti all’interno di uno o più sottocampioni. Questa forma è più comune della precedente.

Il valore mancante non ignorabile è la forma più problematica che coinvolge quei tipi di valori mancanti che non sono distribuiti casualmente tra le osservazioni. In questo caso, la probabilità non può essere prevista dalle variabili nel modello. Questo può essere ignorato eseguendo l’imputazione dei dati per sostituirli.

Esistono metodi di stima in SPSS che forniscono al ricercatore alcune tecniche statistiche per stimare i valori mancanti. Questi sono vale a dire la regressione, la stima della massima verosimiglianza, la cancellazione in base alla lista o alla coppia, il bootstrap bayesiano approssimativo, l’imputazione multipla dei dati e molti altri.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.