Valeurs manquantes dans les données

Le concept de valeurs manquantes est important à comprendre afin de gérer avec succès les données. Si les valeurs manquantes ne sont pas traitées correctement par le chercheur, il peut finir par tirer une inférence inexacte sur les données. En raison d’une mauvaise manipulation, le résultat obtenu par le chercheur différera de ceux où les valeurs manquantes sont présentes.

La non-réponse survient lorsque le répondant ne répond pas à certaines questions en raison du stress, de la fatigue ou d’un manque de connaissances. Le répondant peut ne pas répondre parce que certaines questions sont délicates. Ces manquements de réponses seraient considérés comme des valeurs manquantes.

Gestion des valeurs manquantes

Le chercheur peut laisser les données ou effectuer une imputation des données pour les remplacer. Supposons que le nombre de cas de valeurs manquantes soit extrêmement faible; un chercheur expert peut alors supprimer ou omettre ces valeurs de l’analyse. En langage statistique, si le nombre de cas est inférieur à 5% de l’échantillon, le chercheur peut les supprimer.

Dans le cas d’une analyse multivariée, s’il y a un plus grand nombre de valeurs manquantes, il peut être préférable de supprimer ces cas (plutôt que de faire de l’imputation) et de les remplacer. D’autre part, en analyse univariée, l’imputation peut diminuer la quantité de biais dans les données, si les valeurs manquent au hasard.

Il existe deux formes de valeurs manquantes au hasard:

MCAR: Manquant complètement au hasard
MAR: Manquant au hasard

La première forme manque complètement au hasard (MCAR). Cette forme existe lorsque les valeurs manquantes sont distribuées aléatoirement dans toutes les observations. Ce formulaire peut être confirmé en partitionnant les données en deux parties : l’une contenant les valeurs manquantes et l’autre contenant les valeurs non manquantes. Après le partitionnement des données, le test le plus populaire, appelé test t de différence moyenne, est effectué afin de vérifier s’il existe une différence dans l’échantillon entre les deux ensembles de données.

Le chercheur doit garder à l’esprit que si les données sont MCAR, il peut choisir une suppression par paires ou par liste des cas de valeurs manquantes. Si, cependant, les données ne sont pas des MCAR, une imputation pour les remplacer est effectuée.

La deuxième forme est manquante au hasard (MAR). Dans MAR, les valeurs manquantes ne sont pas réparties aléatoirement entre les observations, mais sont réparties dans un ou plusieurs sous-échantillons. Cette forme est plus courante que la précédente.

La valeur manquante non ignorable est la forme la plus problématique qui implique les types de valeurs manquantes qui ne sont pas distribuées aléatoirement dans les observations. Dans ce cas, la probabilité ne peut pas être prédite à partir des variables du modèle. Cela peut être ignoré en effectuant une imputation de données pour les remplacer.

Il existe des méthodes d’estimation dans les SPSS qui fournissent au chercheur certaines techniques statistiques pour estimer les valeurs manquantes. Il s’agit notamment de la régression, de l’estimation du maximum de vraisemblance, de la suppression par liste ou par paire, du bootstrap bayésien approximatif, de l’imputation de données multiples et bien d’autres.

Laisser un commentaire Annuler la réponse

You may like this....