când utilizați date, majoritatea oamenilor sunt de acord că informațiile și analizele dvs. sunt la fel de bune ca datele pe care le utilizați. În esență, datele de gunoi sunt analiza gunoiului. Curățarea datelor, denumită și curățarea datelor și spălarea datelor, este unul dintre cei mai importanți pași pentru organizația dvs. dacă doriți să creați o cultură în jurul luării deciziilor privind datele de calitate.
ce este curățarea datelor?
curățarea datelor este procesul de remediere sau eliminare a datelor incorecte, corupte, formatate incorect, duplicate sau incomplete dintr-un set de date.
atunci când combinați mai multe surse de date, există multe oportunități pentru ca datele să fie duplicate sau etichetate greșit. Dacă datele sunt incorecte, rezultatele și algoritmii nu sunt de încredere, chiar dacă pot părea corecte. Nu există o modalitate absolută de a prescrie pașii exacți în procesul de curățare a datelor, deoarece procesele vor varia de la setul de date la setul de date. Dar este crucial să stabiliți un șablon pentru procesul dvs. de curățare a datelor, astfel încât să știți că o faceți în mod corect de fiecare dată.
care este diferența dintre curățarea datelor și transformarea datelor?
curățarea datelor este procesul care elimină datele care nu aparțin setului dvs. de date. Transformarea datelor este procesul de conversie a datelor dintr-un format sau structură în altul. Procesele de transformare pot fi, de asemenea, denumite dispute de date sau munging de date, transformarea și maparea datelor dintr-o formă de date „brută” într-un alt format pentru depozitare și analiză. Acest articol se concentrează pe procesele de curățare a acestor date.
cum curățați datele?
în timp ce tehnicile utilizate pentru curățarea datelor pot varia în funcție de tipurile de date pe care compania dvs. le stochează, puteți urma acești pași de bază pentru a cartografia un cadru pentru organizația dvs.
Pasul 1: Eliminați observațiile duplicate sau irelevante
eliminați observațiile nedorite din setul dvs. de date, inclusiv observațiile duplicate sau observațiile irelevante. Observațiile Duplicate se vor întâmpla cel mai adesea în timpul colectării datelor. Când combinați seturi de date din mai multe locuri, razuiți date sau primiți date de la clienți sau mai multe departamente, există oportunități de a crea date duplicate. De-duplicarea este unul dintre cele mai mari domenii care trebuie luate în considerare în acest proces.
observațiile irelevante sunt atunci când observați observații care nu se încadrează în problema specifică pe care încercați să o analizați. De exemplu, dacă doriți să analizați datele referitoare la clienții milenari, dar setul dvs. de date include generații mai vechi, puteți elimina aceste observații irelevante. Acest lucru poate face analiza mai eficientă și poate minimiza distragerea atenției de la ținta principală—precum și crearea unui set de date mai ușor de gestionat și mai performant.
Pasul 2: remediați erorile structurale
Erorile structurale sunt atunci când măsurați sau transferați date și observați convenții de denumire ciudate, greșeli de tipar sau majuscule incorecte. Aceste inconsecvențe pot provoca categorii sau clase etichetate greșit. De exemplu, puteți găsi „N/A” și „nu se aplică” ambele apar, dar acestea ar trebui analizate ca aceeași categorie.
Pasul 3: Filtrați valorile aberante nedorite
adesea, vor exista observații unice în care, dintr-o privire, nu par să se încadreze în datele pe care le analizați. Dacă aveți un motiv legitim pentru a elimina un outlier, cum ar fi introducerea necorespunzătoare a datelor, Acest lucru va ajuta la performanța datelor cu care lucrați. Cu toate acestea, uneori este apariția unui outlier care va dovedi o teorie la care lucrați.
amintiți-vă: doar pentru că există un outlier, nu înseamnă că este incorect. Acest pas este necesar pentru a determina validitatea acestui număr. Dacă un outlier se dovedește a fi irelevant pentru analiză sau este o greșeală, luați în considerare eliminarea acestuia.
Pasul 4: Gestionați datele lipsă
nu puteți ignora datele lipsă, deoarece mulți algoritmi nu vor accepta valori lipsă. Există câteva modalități de a face față datelor lipsă. Niciunul nu este optim, dar ambele pot fi luate în considerare.
- ca o primă opțiune, puteți renunța la observațiile care au valori lipsă, dar făcând acest lucru va scădea sau pierde informații, așa că fiți atenți la acest lucru înainte de al elimina.
- ca a doua opțiune, puteți introduce valori lipsă pe baza altor observații; din nou, există o oportunitate de a pierde integritatea datelor, deoarece este posibil să operați din ipoteze și nu din observații reale.
- ca a treia opțiune, S-ar putea modifica modul în care datele sunt utilizate pentru a naviga în mod eficient valorile nule.
Pasul 4: validați și QA
la sfârșitul procesului de curățare a datelor, ar trebui să puteți răspunde la aceste întrebări ca parte a validării de bază:
- datele au sens?
- datele respectă regulile corespunzătoare pentru domeniul său?
- dovedește sau infirmă teoria ta de lucru sau aduce vreo perspectivă la lumină?
- puteți găsi tendințe în date pentru a vă ajuta să vă formați următoarea teorie?
- dacă nu, este că, din cauza unei probleme de calitate a datelor?
concluzii False din cauza datelor incorecte sau „murdare” pot informa strategia de afaceri săraci și de luare a deciziilor. Concluziile False pot duce la un moment jenant într-o întâlnire de raportare atunci când vă dați seama că datele dvs. nu se ridică la control.
înainte de a ajunge acolo, este important să creați o cultură a datelor de calitate în organizația dvs. Pentru a face acest lucru, ar trebui să documentați instrumentele pe care le-ați putea utiliza pentru a crea această cultură și ce înseamnă calitatea datelor pentru dvs.
componente ale datelor de calitate
determinarea calității datelor necesită o examinare a caracteristicilor sale, apoi cântărirea acestor caracteristici în funcție de ceea ce este cel mai important pentru organizația dvs. și de aplicația(aplicațiile) pentru care vor fi utilizate.
5 caracteristicile datelor de calitate
- valabilitate. Gradul în care datele dvs. se conformează Regulilor sau constrângerilor de afaceri definite.
- precizie. Asigurați-vă că datele dvs. sunt aproape de valorile reale.
- completitudine. Gradul în care sunt cunoscute toate datele necesare.
- consistență. Asigurați-vă că datele dvs. sunt consecvente în cadrul aceluiași set de date și/sau în mai multe seturi de date.
- uniformitate. Gradul în care datele sunt specificate folosind aceeași unitate de măsură.
beneficiile curățării datelor
a avea date curate va crește în cele din urmă productivitatea generală și va permite informații de cea mai înaltă calitate în luarea deciziilor. Beneficiile includ:
- eliminarea erorilor atunci când mai multe surse de date sunt în joc.
- mai puține erori fac pentru clienții mai fericiți și angajații mai puțin frustrați.
- capacitatea de a mapa diferitele funcții și ceea ce datele dvs. este destinat să facă.
- monitorizarea erorilor și raportarea mai bună pentru a vedea de unde provin Erorile, facilitând remedierea datelor incorecte sau corupte pentru aplicațiile viitoare.
- utilizarea instrumentelor pentru curățarea datelor va duce la practici de afaceri mai eficiente și la luarea mai rapidă a deciziilor.
instrumente de curățare a datelor și software pentru eficiență
Software-ul ca Tableau Prep vă poate ajuta să conduceți o cultură a datelor de calitate, oferind modalități vizuale și directe de a combina și curăța datele. Tableau Prep are două produse: Tableau Prep Builder pentru construirea fluxurilor de date și Tableau Prep Conductor pentru programarea, monitorizarea și gestionarea fluxurilor în întreaga organizație. Utilizarea unui instrument de spălare a datelor poate economisi un administrator de baze de date o perioadă semnificativă de timp, ajutând analiștii sau administratorii să înceapă analizele mai repede și să aibă mai multă încredere în date.înțelegerea calității datelor și a instrumentelor de care aveți nevoie pentru a crea, gestiona și transforma datele este un pas important spre luarea deciziilor de afaceri eficiente și eficiente. Acest proces crucial va dezvolta în continuare o cultură a datelor în organizația dvs. Pentru a vedea cum Tableau Prep poate avea impact asupra organizației dvs., citiți despre modul în care Agenția de marketing tinuti a centralizat 100 de surse de date în Tableau Prep și și-a scalat analizele de marketing pentru 500 de clienți.