L’imputation multiple pour les données manquantes

L’imputation multiple pour les données manquantes est une méthode intéressante pour gérer les données manquantes dans l’analyse multivariée. L’idée de l’imputation multiple pour les données manquantes a été proposée pour la première fois par Rubin (1977).

Procédure

Voici la procédure pour effectuer l’imputation multiple pour les données manquantes créée par Rubin en 1987:

  • La première étape de l’imputation multiple pour les données manquantes consiste à imputer les valeurs manquantes en utilisant un modèle approprié qui intègre une variation aléatoire.
  • La deuxième étape d’imputation multiple pour les données manquantes consiste à répéter la première étape 3 à 5 fois.
  • La troisième étape de l’imputation multiple pour les données manquantes consiste à effectuer l’analyse souhaitée sur chaque ensemble de données en utilisant des méthodes de données complètes standard.
  • La quatrième étape d’imputation multiple pour les données manquantes consiste à faire la moyenne des valeurs des estimations de paramètres sur les échantillons de valeurs manquantes afin d’obtenir une estimation ponctuelle unique.
  • La cinquième étape de l’imputation multiple pour les données manquantes consiste à calculer les erreurs-types en faisant la moyenne des erreurs-types au carré des estimations de valeurs manquantes. Après cela, le chercheur doit calculer la variance du paramètre de valeur manquant entre les échantillons. Enfin, le chercheur doit combiner les deux grandeurs en imputation multiple pour les données manquantes afin de calculer les erreurs types.

Caractéristiques

L’imputation multiple pour les données manquantes a plusieurs caractéristiques souhaitables:

  • L’imputation multiple pour les données manquantes permet au chercheur d’obtenir des estimations approximativement impartiales de tous les paramètres à partir de l’erreur aléatoire. Le chercheur ne peut pas obtenir ce résultat par imputation déterministe, ce que l’imputation multiple pour les données manquantes peut faire.
  • Cette imputation multiple pour les données manquantes permet au chercheur d’obtenir de bonnes estimations des erreurs types. L’imputation multiple pour les données manquantes est différente de l’imputation unique, car elle ne permet pas d’introduire d’erreur supplémentaire par le chercheur.
  • Le chercheur peut effectuer des imputations multiples pour des données manquantes avec n’importe quel type de données dans n’importe quel type d’analyse, sans logiciel bien équipé.

Cependant, certaines conditions doivent être remplies avant d’effectuer une imputation multiple pour les données manquantes.

Conditions

Conditions qui doivent être remplies avant d’effectuer une imputation multiple pour les données manquantes :

  • La première condition pour l’imputation multiple pour les données manquantes est que les données doivent être manquantes au hasard. En d’autres termes, la première condition de l’imputation multiple pour les données manquantes stipule que la probabilité des données manquantes sur une variable particulière peut dépendre d’autres variables observées, mais ne peut pas dépendre d’elle-même.
  • La deuxième condition pour l’imputation multiple des données manquantes est que le modèle utilisé par le chercheur pour imputer les valeurs doit être approprié.
  • La troisième condition pour l’imputation multiple pour les données manquantes est que le modèle utilisé par le chercheur doit correspondre à l’autre modèle utilisé pour l’imputation multiple pour les données manquantes.

Cependant, le problème est qu’il est assez facile pour le chercheur de violer de telles conditions lors de l’imputation multiple de données manquantes. En effet, il existe des cas d’imputation multiple pour des données manquantes où les données ne sont pas manquantes au hasard.

Afin de résoudre ce problème, le chercheur estime le modèle pour les données qui ne manquent pas au hasard. Mais de tels modèles sont complexes et indétectables, et ils nécessitent donc des logiciels bien équipés pour fonctionner.

Une autre chose que le chercheur devrait garder à l’esprit est que si « manquant au hasard » est satisfait, les estimations impartiales obtenues par imputation multiple pour les données manquantes ne sont pas toujours faciles à interpréter.

Pages associées:

  • Valeurs manquantes dans les données

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.