Data cleaning: puhtaan datan luomisen ja käytön edut ja vaiheet

kun dataa käytetään, useimmat ihmiset ovat yhtä mieltä siitä, että tietosi ja analyysisi ovat vain yhtä hyviä kuin käyttämäsi data. Pohjimmiltaan roskat tiedot on roskat analyysi ulos. Data cleaning, jota kutsutaan myös nimellä data cleansing ja data scrubbing, on yksi organisaatiosi tärkeimmistä vaiheista, jos haluat luoda kulttuuria laadukkaan datan päätöksenteon ympärille.

mitä on tietojen puhdistus?

tietojen puhdistus on prosessi, jossa tietokokonaisuudessa korjataan tai poistetaan virheellisiä, vioittuneita, väärin muotoiltuja, päällekkäisiä tai epätäydellisiä tietoja.

kun yhdistetään useita tietolähteitä, on monia mahdollisuuksia monistaa tai merkitä tietoja väärin. Jos tiedot ovat virheellisiä, tulokset ja algoritmit ovat epäluotettavia, vaikka ne saattavat näyttää oikeilta. Ei ole yhtä absoluuttista tapaa määrätä tarkkoja vaiheita tietojen puhdistusprosessissa, koska prosessit vaihtelevat tietokokonaisuudesta tietokokonaisuuteen. Mutta on tärkeää luoda malli tietojen puhdistusprosessin niin tiedät teet sen oikealla tavalla joka kerta.

Mitä eroa on datan puhdistuksella ja datan muuntamisella?

tietojen puhdistus on prosessi, joka poistaa tietoja, jotka eivät kuulu tietokokonaisuuteesi. Tiedon muuntaminen on prosessi muuntaa tietoja yhdestä muodosta tai rakenteesta toiseen. Transformaatioprosesseista voidaan käyttää myös nimitystä data wrangling eli datan munging, transforming ja mapping data yhdestä ”raa ’ asta” tietomuodosta toiseen muotoon varastointia ja analysointia varten. Tässä artikkelissa keskitytään prosesseihin Puhdistus, että tiedot.

miten tiedot puhdistetaan?

vaikka tietojen puhdistustekniikat voivat vaihdella sen mukaan, millaisia tietoja yrityksesi tallentaa, voit näiden perusvaiheiden avulla kartoittaa organisaatiollesi puitteet.

Vaihe 1: Poista päällekkäiset tai epäolennaiset havainnot

Poista ei-toivotut havainnot aineistostasi, mukaan lukien päällekkäiset havainnot tai epäolennaiset havainnot. Päällekkäisiä havaintoja tapahtuu useimmiten tiedonkeruun aikana. Kun yhdistät datajoukkoja useista paikoista, kaavitset tietoja tai vastaanotat tietoja asiakkailta tai useilta osastoilta, on mahdollista luoda päällekkäisiä tietoja. Päällekkäisyyksien vähentäminen on yksi suurimmista tässä prosessissa huomioon otettavista aloista.

epäolennaisia havaintoja on, kun huomaa havaintoja, jotka eivät sovi siihen tiettyyn ongelmaan, jota yrittää analysoida. Esimerkiksi, jos haluat analysoida tietoja millennial asiakkaita, mutta dataset sisältää vanhempia sukupolvia, saatat poistaa nämä epäolennaiset havainnot. Tämä voi tehdä analysoinnista tehokkaampaa ja minimoida häiriötekijän ensisijaisesta tavoitteesta—sekä luoda helpommin hallittavan ja tehokkaamman aineiston.

Vaihe 2: Korjaa rakennevirheet

Rakennevirheet ovat, kun mittaat tai siirrät tietoja ja huomaat outoja nimeämiskäytäntöjä, kirjoitusvirheitä tai virheellistä suuraakkosuutta. Nämä epäjohdonmukaisuudet voivat aiheuttaa väärin merkittyjä luokkia tai luokkia. Esimerkiksi, saatat löytää ”N/A” ja ”Ei sovellettavissa” molemmat näkyvät, mutta ne olisi analysoitava samaan luokkaan.

Vaihe 3: Suodata ei-toivotut poikkeamat

usein tulee kertaluonteisia havaintoja, jotka eivät yhdellä silmäyksellä näytä sopivan analysoitavaan tietoon. Jos sinulla on perusteltu syy poistaa muunlainen aineisto, kuten virheellinen tietojen syöttö, se auttaa sinua käsittelemään tietoja. Joskus kuitenkin ulkopuolisen esiintyminen todistaa teorian, jonka parissa työskentelet.

muista: vaikka poikkeava on olemassa, se ei tarkoita, että se on virheellinen. Tätä vaihetta tarvitaan kyseisen numeron voimassaolon määrittämiseksi. Jos poikkeava aine osoittautuu analyysin kannalta merkityksettömäksi tai on virhe, harkitse sen poistamista.

Vaihe 4: käsittele puuttuvia tietoja

et voi sivuuttaa puuttuvia tietoja, koska monet algoritmit eivät hyväksy puuttuvia arvoja. On olemassa pari tapaa käsitellä puuttuvia tietoja. Kumpikaan ei ole optimaalinen, mutta molempia voidaan harkita.

  1. ensimmäisenä vaihtoehtona voit pudottaa havaintoja, joissa on puuttuvia arvoja, mutta tämän tekeminen pudottaa tai kadottaa tietoa, joten muista tämä ennen kuin poistat sen.
  2. toisena vaihtoehtona voit syöttää puuttuvat arvot muiden havaintojen perusteella; jälleen, on mahdollisuus menettää eheyden tiedot, koska saatat toimia oletuksia eikä todellisia havaintoja.
  3. kolmantena vaihtoehtona voit muuttaa tapaa, jolla tietoja käytetään tehokkaasti null-arvojen navigointiin.

Vaihe 4: validoi ja QA

tietojen puhdistusprosessin lopussa pitäisi pystyä vastaamaan näihin kysymyksiin osana perusvalidointia:

  • onko tiedoissa järkeä?
  • noudattaako tieto alaansa koskevia sääntöjä?
  • todistaako tai kumoaako se työteoriasi, tai tuoko se mitään oivalluksia valoon?
  • Löydätkö datasta trendejä, joiden avulla voit muodostaa seuraavan teoriasi?
  • Jos ei, johtuuko se tietojen laatukysymyksestä?

virheellisten tai ”likaisten” tietojen vuoksi tehdyt väärät johtopäätökset voivat kertoa huonosta liiketoimintastrategiasta ja päätöksenteosta. Väärät johtopäätökset voivat johtaa noloon hetkeen raportointipalaverissa, kun huomaa, etteivät omat tiedot kestä tarkastelua.

ennen kuin sinne pääsee, on tärkeää luoda organisaatioon laadukkaan datan kulttuuri. Voit tehdä tämän, sinun pitäisi dokumentoida työkaluja voit luoda tämän kulttuurin ja mitä tietojen laatu merkitsee sinulle.

laatutietojen osat

tietojen laadun määrittäminen edellyttää sen ominaisuuksien tarkastelua ja näiden ominaisuuksien punnitsemista sen mukaan, mikä on organisaatiollesi tärkeintä ja mihin käyttötarkoitukseen niitä käytetään.

5 laatutietojen ominaispiirteet

  1. validiteetti. Missä määrin tietosi ovat määriteltyjen liiketoimintasääntöjen tai rajoitusten mukaisia.
  2. tarkkuus. Varmista, että tietosi ovat lähellä todellisia arvoja.
  3. täydellisyys. Missä määrin kaikki vaaditut tiedot ovat tiedossa.
  4. johdonmukaisuus. Varmista, että tietosi ovat yhdenmukaisia samassa tietokokonaisuudessa ja/tai useissa tietokokonaisuuksissa.
  5. yhtenäisyys. Se, missä määrin tiedot on määritelty samaa mittayksikköä käyttäen.

datan puhdistamisen hyödyt

puhtaan datan saaminen lisää lopulta kokonaistuottavuutta ja mahdollistaa mahdollisimman laadukkaan tiedon saamisen päätöksenteossa. Etuja ovat:

  • virheiden poistaminen, kun pelissä on useita tietolähteitä.
  • vähemmän virheitä tekevät onnellisemmat asiakkaat ja vähemmän turhautuneet työntekijät.
  • kyky kartoittaa eri toimintoja ja mitä tietojesi tarkoitus on tehdä.
  • virheiden seuranta ja parempi raportointi, jotta nähdään mistä virheet tulevat, mikä helpottaa virheellisten tai korruptoituneiden tietojen korjaamista tulevia sovelluksia varten.
  • työkalujen käyttäminen tietojen puhdistamiseen tehostaa liiketoimintakäytäntöjä ja nopeuttaa päätöksentekoa.

tietojen puhdistustyökalut ja tehokkuuteen tähtäävät ohjelmistot

Tableau Prepin kaltaiset ohjelmistot voivat auttaa laadukkaan datakulttuurin ajamisessa tarjoamalla visuaalisia ja suoria tapoja yhdistää ja puhdistaa tietoja. Tableau Prep on kaksi tuotetta: Tableau Prep Builder rakentamiseen tietovirtoja ja Tableau Prep kapellimestari aikataulutus, seuranta, ja hallita virtoja koko organisaation. Tietojen pesutyökalun avulla tietokannan ylläpitäjä voi säästää huomattavasti aikaa auttamalla analyytikoita tai ylläpitäjiä aloittamaan analyysit nopeammin ja luottamaan enemmän tietoihin.

tiedon laadun ja datan luomiseen, hallintaan ja muuntamiseen tarvittavien työkalujen ymmärtäminen on tärkeä askel kohti tehokkaiden ja vaikuttavien liiketoimintapäätösten tekemistä. Tämä ratkaiseva prosessi kehittää edelleen datakulttuuria organisaatiossasi. Jos haluat nähdä, miten Tableau Prep voi vaikuttaa organisaatioosi, lue kuinka markkinointitoimisto Tinuiti keskitti 100-plus tietolähteet Tableau Prepiin ja skaalasi markkinointianalytiikkansa 500 asiakkaalle.

Vastaa

Sähköpostiosoitettasi ei julkaista.