Saknade värden i Data

begreppet saknade värden är viktigt att förstå för att lyckas hantera data. Om de saknade värdena inte hanteras korrekt av forskaren kan han/hon sluta dra en felaktig slutsats om data. På grund av felaktig hantering kommer resultatet som erhållits av forskaren att skilja sig från de där de saknade värdena är närvarande.

item non-response uppstår när respondenten inte svarar på vissa frågor på grund av stress, trötthet eller brist på kunskap. Svaranden kanske inte svarar eftersom vissa frågor är känsliga. Denna brist på svar skulle betraktas som saknade värden.

hantering av saknade värden

forskaren kan lämna data eller göra dataimputering för att ersätta dem. Antag att antalet fall av saknade värden är extremt litet; då kan en expertforskare släppa eller utelämna dessa värden från analysen. På statistiskt språk, om antalet fall är mindre än 5% av provet, kan forskaren släppa dem.

När det gäller multivariat analys, om det finns ett större antal saknade värden, kan det vara bättre att släppa dessa fall (snarare än att imputera) och ersätta dem. Å andra sidan, i univariat analys, kan imputering minska mängden bias i data, om värdena saknas slumpmässigt.

det finns två former av slumpmässigt saknade värden:

  • MCAR: saknas helt slumpmässigt
  • MAR: saknas slumpmässigt

den första formen saknas helt slumpmässigt (MCAR). Det här formuläret finns när de saknade värdena slumpmässigt fördelas över alla observationer. Detta formulär kan bekräftas genom att dela upp data i två delar: en uppsättning som innehåller de saknade värdena och den andra som innehåller de icke saknade värdena. Efter partitionering av data utförs det mest populära testet, kallat T-testet av medelskillnad, för att kontrollera om det finns någon skillnad i provet mellan de två datamängderna.

forskaren bör komma ihåg att om uppgifterna är MCAR, kan han välja en parvis eller en listvis radering av saknade värdefall. Om emellertid data inte är MCAR, utförs imputering för att ersätta dem.

den andra formen saknas slumpmässigt (MAR). I MAR är de saknade värdena inte slumpmässigt fördelade över observationer utan distribueras inom ett eller flera delprover. Denna form är vanligare än den tidigare.

det icke-ignorerbara saknade värdet är den mest problematiska formen som involverar de typer av saknade värden som inte är slumpmässigt fördelade över observationerna. I detta fall kan sannolikheten inte förutsägas från variablerna i modellen. Detta kan ignoreras genom att utföra data imputering för att ersätta dem.

det finns uppskattningsmetoder i SPSS som ger forskaren vissa statistiska tekniker för att uppskatta de saknade värdena. Dessa är nämligen regression, maximal sannolikhetsbedömning, listvis eller parvis radering, ungefärlig Bayesian bootstrap, multiple data imputation och många andra.

Lämna ett svar

Din e-postadress kommer inte publiceras.