Manglende værdier i Data

begrebet manglende værdier er vigtigt at forstå for at kunne administrere data. Hvis de manglende værdier ikke håndteres korrekt af forskeren, kan han/hun ende med at tegne en unøjagtig slutning om dataene. På grund af forkert håndtering vil resultatet opnået af forskeren afvige fra dem, hvor de manglende værdier er til stede.

Item manglende respons opstår, når respondenten ikke reagerer på visse spørgsmål på grund af stress, træthed eller manglende viden. Respondenten svarer muligvis ikke, fordi nogle spørgsmål er følsomme. Disse manglende svar ville blive betragtet som manglende værdier.

håndtering af manglende værdier

forskeren kan forlade dataene eller gøre dataimputation for at erstatte dem. Antag, at antallet af tilfælde af manglende værdier er ekstremt lille; derefter kan en ekspertforsker droppe eller udelade disse værdier fra analysen. På statistisk sprog, hvis antallet af sager er mindre end 5% af prøven, kan forskeren slippe dem.

i tilfælde af multivariat analyse, hvis der er et større antal manglende værdier, kan det være bedre at droppe disse tilfælde (snarere end at gøre imputation) og erstatte dem. På den anden side kan imputation i univariat analyse reducere mængden af bias i dataene, hvis værdierne mangler tilfældigt.

der er to former for tilfældigt manglende værdier:

MCAR: mangler helt tilfældigt
MAR: mangler tilfældigt

den første form mangler helt tilfældigt (MCAR). Denne formular findes, når de manglende værdier er tilfældigt fordelt på tværs af alle observationer. Denne formular kan bekræftes ved at opdele dataene i to dele: et sæt, der indeholder de manglende værdier, og det andet indeholder de ikke-manglende værdier. Efter opdeling af dataene udføres den mest populære test, kaldet T-test af gennemsnitlig forskel, for at kontrollere, om der findes nogen forskel i prøven mellem de to datasæt.

forskeren skal huske på, at hvis dataene er MCAR, kan han vælge en parvis eller en listemæssig sletning af manglende værditilfælde. Hvis dataene imidlertid ikke er MCAR, udføres imputation for at erstatte dem.

den anden form mangler tilfældigt (MAR). I MAR er de manglende værdier ikke tilfældigt fordelt på tværs af observationer, men fordeles inden for en eller flere underprøver. Denne formular er mere almindelig end den foregående.

den ikke-ignorable manglende værdi er den mest problematiske form, der involverer de typer manglende værdier, der ikke er tilfældigt fordelt på tværs af observationerne. I dette tilfælde kan sandsynligheden ikke forudsiges ud fra variablerne i modellen. Dette kan ignoreres ved at udføre dataimputation for at erstatte dem.

der er estimeringsmetoder i SPSS, der giver forskeren visse statistiske teknikker til at estimere de manglende værdier. Disse er nemlig regression, maksimal sandsynlighedsestimering, listevis eller parvis sletning, omtrentlig Bayesian bootstrap, multiple data imputation og mange andre.

Skriv et svar Annuller svar

You may like this....