når du bruker data, er de fleste enige om at din innsikt og analyse bare er like god som dataene du bruker. I hovedsak er søppeldata i søppelanalyse ut. Datarensing, også referert til som datarensing og dataskrubbing, er en av de viktigste trinnene for organisasjonen din hvis du vil skape en kultur rundt kvalitetsdatabeslutninger.
hva er datarensing?
datarensing er prosessen med å fikse eller fjerne feil, skadet, feil formatert, dupliserte eller ufullstendige data i et datasett.
når du kombinerer flere datakilder, er det mange muligheter for data som skal dupliseres eller mislabeled. Hvis data er feil, utfall og algoritmer er upålitelige, selv om de kan se riktig. Det er ingen absolutt måte å foreskrive de nøyaktige trinnene i datarensingsprosessen fordi prosessene vil variere fra datasett til datasett. Men det er viktig å etablere en mal for din data renseprosessen slik at du vet du gjør det på riktig måte hver gang.
hva er forskjellen mellom datarensing og datatransformasjon?
datarensing er prosessen som fjerner data som ikke hører hjemme i datasettet. Data transformasjon er prosessen med å konvertere data fra ett format eller struktur til en annen. Transformasjonsprosesser kan også bli referert til som data wrangling, eller data munging, transformere og kartlegge data fra en » rå » dataform til et annet format for lagring og analyse. Denne artikkelen fokuserer på prosessene for å rense dataene.
hvordan rengjør du data?
mens teknikkene som brukes til datarensing, kan variere i henhold til datatypene firmaet lagrer, kan du følge disse grunnleggende trinnene for å kartlegge et rammeverk for organisasjonen.
Trinn 1: Fjern dupliserte eller irrelevante observasjoner
Fjern uønskede observasjoner fra datasettet, inkludert dupliserte observasjoner eller irrelevante observasjoner. Dupliserte observasjoner vil skje oftest under datainnsamling. Når du kombinerer datasett fra flere steder, skraper data eller mottar data fra klienter eller flere avdelinger, er det muligheter for å opprette dupliserte data. De-duplisering er et av de største områdene som skal vurderes i denne prosessen.Irrelevante observasjoner er Når du legger merke til observasjoner som ikke passer inn i det spesifikke problemet du prøver å analysere. Hvis du for eksempel vil analysere data om tusenårige kunder, men datasettet inkluderer eldre generasjoner, kan du fjerne de irrelevante observasjonene. Dette kan gjøre analysen mer effektiv og minimere distraksjon fra ditt primære mål – samt skape et mer håndterbart og mer effektivt datasett.
Trinn 2: Løs strukturelle feil
Strukturelle feil er Når du måler eller overfører data og legger merke til merkelige navnekonvensjoner, skrivefeil eller feil kapitalisering. Disse inkonsekvensene kan forårsake feilmerkede kategorier eller klasser. For eksempel kan du finne «N/A» og «Ikke Aktuelt» begge vises, men de skal analyseres som samme kategori.
Trinn 3: Filtrer uønskede avvik
ofte vil det være engangsobservasjoner der de på et øyeblikk ikke ser ut til å passe inn i dataene du analyserer. Hvis du har en legitim grunn til å fjerne en outlier, som feil dataregistrering, vil det hjelpe ytelsen til dataene du arbeider med. Men noen ganger er det utseendet til en outlier som vil bevise en teori du jobber med. Husk: bare fordi en outlier eksisterer, betyr det ikke at den er feil. Dette trinnet er nødvendig for å bestemme gyldigheten av dette nummeret. Hvis en outlier viser seg å være irrelevant for analyse eller er en feil, bør du vurdere å fjerne den.
Trinn 4: Håndter manglende data
du kan ikke ignorere manglende data fordi mange algoritmer ikke godtar manglende verdier. Det er et par måter å håndtere manglende data. Det er heller ikke optimalt, men begge kan vurderes.
- Som et første alternativ kan du slippe observasjoner som har manglende verdier, men å gjøre dette vil slippe eller miste informasjon, så vær oppmerksom på dette før du fjerner det.
- som et annet alternativ kan du legge inn manglende verdier basert på andre observasjoner; igjen er det en mulighet til å miste integriteten til dataene fordi du kan operere fra forutsetninger og ikke faktiske observasjoner.
- som et tredje alternativ, kan du endre måten dataene brukes til å effektivt navigere nullverdier.
Trinn 4: Validere og QA
på slutten av datarengjøringsprosessen bør du kunne svare på disse spørsmålene som en del av grunnleggende validering:
- gir dataene mening?
- følger dataene de riktige reglene for sitt felt?
- beviser det eller motbeviser arbeidsteorien din, eller bringer noe innsikt frem i lyset?
- Kan du finne trender i dataene for å hjelpe deg med å danne din neste teori?
- Hvis ikke, er det på grunn av et datakvalitetsproblem?
Falske konklusjoner på grunn av feil eller» skitne » data kan informere dårlig forretningsstrategi og beslutningstaking. Falske konklusjoner kan føre til et pinlig øyeblikk i et rapporteringsmøte når du innser at dataene dine ikke står opp til gransking.
før du kommer dit, er det viktig å skape en kultur av kvalitetsdata i organisasjonen. For å gjøre dette, bør du dokumentere verktøyene du kan bruke til å skape denne kulturen og hva datakvalitet betyr for deg.
Komponenter av kvalitetsdata
Å Bestemme kvaliteten på dataene krever en undersøkelse av egenskapene, og veiing av disse egenskapene i henhold til hva som er viktigst for organisasjonen din og søknaden(e) som de skal brukes til.
5 egenskaper for kvalitetsdata
- Gyldighet. I hvilken grad dataene dine er i samsvar med definerte forretningsregler eller begrensninger.
- Nøyaktighet. Sørg for at dataene dine er nær de sanne verdiene.
- Fullstendighet. I hvilken grad alle nødvendige data er kjent.
- Konsistens. Sørg for at dataene dine er konsistente innenfor samme datasett og / eller på tvers av flere datasett.
- Ensartethet. I hvilken grad dataene er spesifisert ved hjelp av samme måleenhet.
Fordeler med datarensing
å ha rene data vil til slutt øke den generelle produktiviteten og gi mulighet for den høyeste kvalitetsinformasjonen i beslutningsprosessen. Fordeler inkluderer:
- Fjerning av feil når flere datakilder er på spill.
- Færre feil gir lykkeligere kunder og mindre frustrerte ansatte.
- Evne til å kartlegge de ulike funksjonene og hva dataene dine er ment å gjøre.Overvåking av feil Og bedre rapportering for å se hvor feil kommer fra, noe som gjør det enklere å fikse feil eller korrupte data for fremtidige applikasjoner.
- Bruk av verktøy for datarensing vil gjøre for mer effektiv forretningspraksis og raskere beslutninger.
datarensingsverktøy og programvare for effektivitet
Programvare som Tableau Prep kan hjelpe deg med å drive en datakultur av høy kvalitet ved å tilby visuelle og direkte måter å kombinere og rense dataene dine på. Tableau Prep har to produkter: Tableau Prep Builder for å bygge dine datastrømmer Og Tableau Prep Dirigent for planlegging, overvåking og administrere flyter på tvers av organisasjonen. Ved å bruke et verktøy for dataskrubbing kan du spare en databaseadministrator betydelig tid ved å hjelpe analytikere eller administratorer med å starte analysene raskere og ha større tillit til dataene.Forstå datakvalitet Og verktøyene du trenger for å opprette, administrere og transformere data er et viktig skritt mot å ta effektive og effektive forretningsbeslutninger. Denne viktige prosessen vil videreutvikle en datakultur i organisasjonen. For å se hvordan Tableau Prep kan påvirke organisasjonen din, les om hvordan markedsføringsbyrået Tinuiti sentraliserte 100-pluss datakilder I Tableau Prep og skalerte markedsføringsanalysen for 500 klienter.