Manglende Verdier i Data

begrepet manglende verdier er viktig å forstå for å kunne administrere data. Hvis de manglende verdiene ikke håndteres riktig av forskeren, kan han/hun ende opp med å tegne en unøyaktig slutning om dataene. På grunn av feil håndtering vil resultatet oppnådd av forskeren avvike fra de der de manglende verdiene er til stede.

Element frafall oppstår når respondenten ikke svarer på visse spørsmål på grunn av stress, tretthet eller mangel på kunnskap. Respondenten kan ikke svare fordi noen spørsmål er sensitive. Denne mangelen på svar vil bli vurdert som manglende verdier.

Håndtering Av Manglende Verdier

forskeren kan la dataene eller gjøre data imputering for å erstatte dem. Anta at antall tilfeller av manglende verdier er ekstremt små; da kan en ekspertforsker slippe eller utelate disse verdiene fra analysen. På statistisk språk, hvis antall tilfeller er mindre enn 5% av prøven, kan forskeren slippe dem.

ved multivariat analyse, hvis det er et større antall manglende verdier, kan det være bedre å slippe disse tilfellene (i stedet for å gjøre imputasjon) og erstatte dem. På den annen side, i univariate analyse, imputation kan redusere mengden av skjevhet i dataene, hvis verdiene mangler tilfeldig.MCAR: Mangler helt tilfeldig

  • MAR: Mangler tilfeldig
  • DET første skjemaet mangler helt tilfeldig (MCAR). Dette skjemaet eksisterer når de manglende verdiene er tilfeldig fordelt over alle observasjoner. Dette skjemaet kan bekreftes ved å partisjonere dataene i to deler: ett sett som inneholder de manglende verdiene, og den andre inneholder de ikke-manglende verdiene. Etter partisjonering av dataene utføres den mest populære testen, kalt t-testen av gjennomsnittlig forskjell, for å sjekke om det eksisterer noen forskjell i prøven mellom de to datasettene.

    forskeren bør huske på at hvis dataene ER MCAR, kan han velge en parvis eller en listevis sletting av manglende verdisaker. Hvis dataene imidlertid IKKE ER MCAR, utføres imputasjon for å erstatte dem.

    det andre skjemaet mangler tilfeldig (MAR). I MAR er de manglende verdiene ikke tilfeldig fordelt over observasjoner, men fordelt i ett eller flere delprøver. Dette skjemaet er mer vanlig enn det forrige.

    den ikke-ignorable manglende verdien er den mest problematiske formen som involverer de typer manglende verdier som ikke er tilfeldig fordelt over observasjonene. I dette tilfellet kan sannsynligheten ikke forutsies fra variablene i modellen. Dette kan ignoreres ved å utføre dataimputering for å erstatte dem.

    det finnes estimeringsmetoder I SPSS som gir forskeren visse statistiske teknikker for å estimere de manglende verdiene. Disse er nemlig regresjon, maksimal sannsynlighet estimering, listevis eller parvis sletting, omtrentlig Bayesiansk bootstrap, multiple data imputation og mange andre.

    Legg igjen en kommentar

    Din e-postadresse vil ikke bli publisert.