Imputazione multipla per dati mancanti

L’imputazione multipla per dati mancanti è un metodo interessante per la gestione dei dati mancanti nell’analisi multivariata. L’idea di imputazione multipla per i dati mancanti fu proposta per la prima volta da Rubin (1977).

Procedura

La seguente è la procedura per condurre l’imputazione multipla per i dati mancanti creata da Rubin nel 1987:

  • Il primo passo dell’imputazione multipla per i dati mancanti consiste nell’imputare i valori mancanti utilizzando un modello appropriato che incorpora variazioni casuali.
  • Il secondo passo dell’imputazione multipla per i dati mancanti consiste nel ripetere il primo passo 3-5 volte.
  • Il terzo passo dell’imputazione multipla per i dati mancanti consiste nell’eseguire l’analisi desiderata su ciascun set di dati utilizzando metodi di dati standard e completi.
  • Il quarto passo dell’imputazione multipla per i dati mancanti consiste nella media dei valori delle stime dei parametri tra i campioni di valore mancanti al fine di ottenere una stima a punto singolo.
  • Il quinto passo dell’imputazione multipla per i dati mancanti consiste nel calcolare gli errori standard calcolando la media degli errori standard quadrati delle stime del valore mancante. Dopo questo, il ricercatore deve calcolare la varianza del parametro del valore mancante tra i campioni. Infine, il ricercatore deve combinare le due quantità in imputazione multipla per i dati mancanti per calcolare gli errori standard.

Caratteristiche

L’imputazione multipla per i dati mancanti ha diverse caratteristiche desiderabili:

  • L’imputazione multipla per i dati mancanti consente al ricercatore di ottenere stime approssimativamente imparziali di tutti i parametri dall’errore casuale. Il ricercatore non può ottenere questo risultato dall’imputazione deterministica, che l’imputazione multipla per i dati mancanti può fare.
  • Questa imputazione multipla per i dati mancanti consente al ricercatore di ottenere buone stime degli errori standard. L’imputazione multipla per i dati mancanti è diversa dall’imputazione singola, poiché non consente l’introduzione di errori aggiuntivi da parte del ricercatore.
  • Il ricercatore può eseguire imputazione multipla per i dati mancanti con qualsiasi tipo di dati in qualsiasi tipo di analisi, senza software ben attrezzato.

Tuttavia, ci sono alcune condizioni che dovrebbero essere soddisfatte prima di eseguire l’imputazione multipla per i dati mancanti.

Condizioni

Condizioni che devono essere soddisfatte prima di eseguire l’imputazione multipla per i dati mancanti:

  • La prima condizione per l’imputazione multipla per i dati mancanti è che i dati debbano essere mancanti in modo casuale. In altre parole, la prima condizione per l’imputazione multipla per i dati mancanti afferma che la probabilità dei dati mancanti su una particolare variabile può dipendere da altre variabili osservate, ma non può dipendere da se stessa.
  • La seconda condizione per l’imputazione multipla per i dati mancanti è che il modello utilizzato dal ricercatore per imputare i valori sia appropriato.
  • La terza condizione per l’imputazione multipla per i dati mancanti è che il modello utilizzato dal ricercatore deve corrispondere all’altro modello utilizzato per l’imputazione multipla per i dati mancanti.

Tuttavia, il problema è che è abbastanza facile per il ricercatore violare tali condizioni durante l’esecuzione di imputazione multipla per i dati mancanti. Questo perché ci sono casi di imputazione multipla per i dati mancanti in cui i dati non mancano a caso.

Per risolvere questo problema, il ricercatore stima il modello per i dati che non mancano a caso. Ma tali modelli sono complessi e non verificabili, e quindi richiedono un software ben attrezzato per eseguire.

Un’altra cosa che il ricercatore dovrebbe tenere a mente è che se “missing at random” è soddisfatto, le stime imparziali ottenute mediante imputazione multipla per i dati mancanti non sono sempre facili da interpretare.

Pagine correlate:

  • Valori mancanti nei dati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.