Ontbrekende waarden in gegevens

het begrip ontbrekende waarden is belangrijk om te begrijpen om gegevens met succes te beheren. Als de ontbrekende waarden niet goed worden behandeld door de onderzoeker, dan kan hij/zij uiteindelijk het tekenen van een onjuiste gevolgtrekking over de gegevens. Als gevolg van onjuiste behandeling, zal het resultaat verkregen door de onderzoeker verschillen van degenen waar de ontbrekende waarden aanwezig zijn.

Item non-respons treedt op wanneer de respondent niet reageert op bepaalde vragen vanwege stress, vermoeidheid of gebrek aan kennis. De respondent kan niet reageren omdat sommige vragen gevoelig zijn. Dit gebrek aan antwoorden zou worden beschouwd als ontbrekende waarden.

omgaan met ontbrekende waarden

De onderzoeker kan de gegevens achterlaten of gegevens toeschrijven om ze te vervangen. Stel dat het aantal gevallen van ontbrekende waarden extreem klein is; dan kan een deskundige onderzoeker deze waarden laten vallen of weglaten uit de analyse. In statistische taal, als het aantal gevallen minder dan 5% van de steekproef is, dan kan de onderzoeker ze laten vallen.

in het geval van multivariate analyse, als er een groter aantal ontbrekende waarden is, dan kan het beter zijn om deze gevallen te laten vallen (in plaats van toe te rekenen) en ze te vervangen. Aan de andere kant, in univariate analyse, kan imputatie de hoeveelheid vertekening in de gegevens verminderen, als de waarden willekeurig ontbreken.

Er zijn twee vormen van willekeurig ontbrekende waarden:

  • MCAR: geheel willekeurig ontbrekend
  • MAR: willekeurig ontbrekend

de eerste vorm ontbreekt volledig willekeurig (MCAR). Dit formulier bestaat wanneer de ontbrekende waarden willekeurig over alle waarnemingen worden verdeeld. Dit formulier kan worden bevestigd door de gegevens in twee delen te verdelen: een set met de ontbrekende waarden en de andere met de niet-ontbrekende waarden. Na het partitioneren van de gegevens, wordt de meest populaire test, genaamd de T-test van het gemiddelde verschil, uitgevoerd om te controleren of er een verschil in de steekproef tussen de twee data-sets bestaat.

De onderzoeker moet in gedachten houden dat als de gegevens MCAR zijn, hij kan kiezen voor een paar-wise of een lijst-wise verwijdering van ontbrekende waarde gevallen. Als de gegevens echter niet MCAR zijn, wordt de toerekening ter vervanging ervan uitgevoerd.

het tweede formulier ontbreekt willekeurig (mrt). In MAR worden de ontbrekende waarden niet willekeurig over waarnemingen verdeeld, maar binnen een of meer submonsters. Deze vorm komt vaker voor dan de vorige.

De niet-ontvlambare ontbrekende waarde is de meest problematische vorm waarbij de typen ontbrekende waarden betrokken zijn die niet willekeurig over de waarnemingen worden verdeeld. In dit geval kan de waarschijnlijkheid niet worden voorspeld aan de hand van de variabelen in het model. Dit kan worden genegeerd door gegevens toe te rekenen om ze te vervangen.

Er zijn schattingsmethoden in SPSS die de onderzoeker bepaalde statistische technieken bieden om de ontbrekende waarden te schatten. Dit zijn namelijk regressie, maximale waarschijnlijkheid schatting, lijst-wise of paar-wise verwijdering, geschatte Bayesiaanse bootstrap, meerdere data imputatie, en vele anderen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.