Når du bruger data, er de fleste enige om, at din indsigt og analyse kun er så god som de data, du bruger. Væsentlige, skrald data i er skrald analyse ud. Datarensning, også kaldet datarensning og datarensning, er et af de vigtigste trin for din organisation, hvis du vil skabe en kultur omkring beslutningstagning af kvalitetsdata.
hvad er datarensning?
datarensning er processen med at rette eller fjerne forkerte, beskadigede, forkert formaterede, duplikerede eller ufuldstændige data i et datasæt.
Når du kombinerer flere datakilder, er der mange muligheder for, at data duplikeres eller fejlagtigt mærkes. Hvis data er forkerte, er resultater og algoritmer upålidelige, selvom de kan se korrekte ud. Der er ingen absolut måde at ordinere de nøjagtige trin i datarensningsprocessen, fordi processerne vil variere fra datasæt til datasæt. Men det er afgørende at etablere en skabelon til din data rengøringsproces, så du ved, at du gør det på den rigtige måde hver gang.
hvad er forskellen mellem datarensning og datatransformation?
data rengøring er den proces, der fjerner data, der ikke hører hjemme i dit datasæt. Datatransformation er processen med at konvertere data fra et format eller en struktur til et andet. Transformationsprocesser kan også kaldes datakrig eller datamunging, omdannelse og kortlægning af data fra en “rå” dataformular til et andet format til oplagring og analyse. Denne artikel fokuserer på processerne til rengøring af disse data.
Hvordan renser du data?
mens de teknikker, der bruges til datarensning, kan variere afhængigt af de typer data, din virksomhed gemmer, kan du følge disse grundlæggende trin for at kortlægge en ramme for din organisation.
Trin 1: Fjern dublerede eller irrelevante observationer
Fjern uønskede observationer fra dit datasæt, herunder dublerede observationer eller irrelevante observationer. Duplikatobservationer vil oftest ske under dataindsamling. Når du kombinerer datasæt fra flere steder, skraber data eller modtager data fra klienter eller flere afdelinger, er der muligheder for at oprette duplikatdata. De-duplikering er et af de største områder, der skal overvejes i denne proces.
irrelevante observationer er, når du bemærker observationer, der ikke passer ind i det specifikke problem, du forsøger at analysere. Hvis du f.eks. vil analysere data vedrørende tusindårskunder, men dit datasæt inkluderer ældre generationer, kan du fjerne disse irrelevante observationer. Dette kan gøre analysen mere effektiv og minimere distraktion fra dit primære mål—samt skabe et mere håndterbart og mere performant datasæt.
Trin 2: ret strukturelle fejl
strukturelle fejl er, når du måler eller overfører data og bemærker mærkelige navngivningskonventioner, skrivefejl eller forkert store bogstaver. Disse uoverensstemmelser kan forårsage forkert mærkede kategorier eller klasser. For eksempel kan du finde “N/A” og “ikke relevant” begge vises, men de skal analyseres som den samme kategori.
Trin 3: Filtrer uønskede outliers
ofte vil der være engangsobservationer, hvor de med et øjeblik ikke ser ud til at passe ind i de data, du analyserer. Hvis du har en legitim grund til at fjerne en outlier, som forkert indtastning af data, vil det hjælpe udførelsen af de data, du arbejder med. Men nogle gange er det udseendet af en outlier, der vil bevise en teori, du arbejder på.
husk: bare fordi der findes en outlier, betyder det ikke, at det er forkert. Dette trin er nødvendigt for at bestemme gyldigheden af dette nummer. Hvis en outlier viser sig at være irrelevant for analyse eller er en fejl, kan du overveje at fjerne den.
Trin 4: Håndter manglende data
Du kan ikke ignorere manglende data, fordi mange algoritmer ikke accepterer manglende værdier. Der er et par måder at håndtere manglende data på. Ingen af dem er optimale, men begge kan overvejes.
- som en første mulighed kan du droppe observationer, der mangler værdier, men hvis du gør dette, vil du tabe eller miste oplysninger, så vær opmærksom på dette, før du fjerner det.
- som en anden mulighed kan du indtaste manglende værdier baseret på andre observationer; igen er der en mulighed for at miste integriteten af dataene, fordi du muligvis opererer ud fra antagelser og ikke faktiske observationer.
- som en tredje mulighed kan du ændre den måde, hvorpå dataene bruges til effektivt at navigere i null-værdier.
Trin 4: validering og kvalitet
Ved afslutningen af datarensningsprocessen skal du være i stand til at besvare disse spørgsmål som en del af grundlæggende Validering:
- giver dataene mening?
- følger dataene de relevante regler for sit felt?
- beviser eller modbeviser det din arbejdsteori eller bringer nogen indsigt frem i lyset?
- kan du finde tendenser i dataene for at hjælpe dig med at danne din næste teori?
- hvis ikke, er det på grund af et datakvalitetsproblem?
falske konklusioner på grund af forkerte eller “beskidte” data kan informere dårlig forretningsstrategi og beslutningstagning. Falske konklusioner kan føre til et pinligt øjeblik i et rapporteringsmøde, når du indser, at dine data ikke står op til kontrol.
før du kommer dertil, er det vigtigt at skabe en kultur af kvalitetsdata i din organisation. For at gøre dette skal du dokumentere de værktøjer, du kan bruge til at oprette denne kultur, og hvad datakvalitet betyder for dig.
komponenter af kvalitetsdata
bestemmelse af datakvaliteten kræver en undersøgelse af dens egenskaber og vejer derefter disse egenskaber i henhold til, hvad der er vigtigst for din organisation og de(n) applikation (er), som de vil blive brugt til.
5 egenskaber ved kvalitetsdata
- gyldighed. I hvilken grad dine data overholder definerede forretningsregler eller begrænsninger.
- nøjagtighed. Sørg for, at dine data er tæt på de sande værdier.
- fuldstændighed. I hvilken grad alle krævede data er kendt.
- konsistens. Sørg for, at dine data er konsistente inden for det samme datasæt og/eller på tværs af flere datasæt.
- ensartethed. I hvilken grad dataene specificeres ved hjælp af den samme måleenhed.
fordele ved datarensning
at have rene data vil i sidste ende øge den samlede produktivitet og give mulighed for information af højeste kvalitet i din beslutningstagning. Fordele omfatter:
- fjernelse af fejl, når flere datakilder er på spil.
- færre fejl giver gladere kunder og mindre frustrerede medarbejdere.
- mulighed for at kortlægge de forskellige funktioner, og hvad dine data er beregnet til at gøre.
- overvågning af fejl og bedre rapportering for at se, hvor fejl kommer fra, hvilket gør det lettere at rette forkerte eller korrupte data til fremtidige applikationer.
- brug af værktøjer til data rengøring vil gøre for mere effektiv forretningspraksis og hurtigere beslutningstagning.
datarensningsværktøjer og-programmer til effektivitet
programmer som Tableau Prep kan hjælpe dig med at skabe en kvalitetsdatakultur ved at tilbyde visuelle og direkte måder at kombinere og rense dine data på. Tableau Prep har to produkter: Tableau Prep Builder til opbygning af dine datastrømme og Tableau Prep dirigent til planlægning, overvågning og styring af strømme på tværs af din organisation. Brug af et dataskrubningsværktøj kan spare en databaseadministrator en betydelig mængde tid ved at hjælpe analytikere eller administratorer med at starte deres analyser hurtigere og have større tillid til dataene.
forståelse af datakvalitet og de værktøjer, du har brug for til at oprette, administrere og transformere data, er et vigtigt skridt i retning af at træffe effektive og effektive forretningsbeslutninger. Denne afgørende proces vil videreudvikle en datakultur i din organisation. For at se, hvordan Tableau Prep kan påvirke din organisation, skal du læse om, hvordan marketingbureau Tinuiti centraliserede 100 plus datakilder i Tableau Prep og skalerede deres marketinganalyse til 500 klienter.