Quando si utilizzano i dati, la maggior parte delle persone concorda sul fatto che le informazioni e le analisi sono valide solo quanto i dati utilizzati. In sostanza, i dati spazzatura in è l’analisi dei rifiuti fuori. La pulizia dei dati, nota anche come pulizia dei dati e scrubbing dei dati, è uno dei passaggi più importanti per la tua organizzazione se vuoi creare una cultura attorno al processo decisionale sui dati di qualità.
Che cos’è la pulizia dei dati?
La pulizia dei dati è il processo di correzione o rimozione di dati errati, corrotti, formattati in modo errato, duplicati o incompleti all’interno di un set di dati.
Quando si combinano più origini dati, ci sono molte opportunità per i dati da duplicare o mislabeled. Se i dati non sono corretti, i risultati e gli algoritmi sono inaffidabili, anche se possono sembrare corretti. Non esiste un modo assoluto per prescrivere i passaggi esatti nel processo di pulizia dei dati perché i processi variano da set di dati a set di dati. Ma è fondamentale stabilire un modello per il processo di pulizia dei dati in modo da sapere che lo stai facendo nel modo giusto ogni volta.
Qual è la differenza tra la pulizia dei dati e la trasformazione dei dati?
La pulizia dei dati è il processo che rimuove i dati che non appartengono al set di dati. La trasformazione dei dati è il processo di conversione dei dati da un formato o struttura in un altro. I processi di trasformazione possono anche essere indicati come data wrangling, o data munging, trasformazione e mappatura dei dati da una forma di dati “grezzi” in un altro formato per lo stoccaggio e l’analisi. Questo articolo si concentra sui processi di pulizia che i dati.
Come si puliscono i dati?
Mentre le tecniche utilizzate per la pulizia dei dati possono variare in base ai tipi di dati archiviati dall’azienda, è possibile seguire questi passaggi di base per mappare un framework per l’organizzazione.
Passaggio 1: Rimuovere osservazioni duplicate o irrilevanti
Rimuovere osservazioni indesiderate dal set di dati, incluse osservazioni duplicate o osservazioni irrilevanti. Le osservazioni duplicate si verificano più spesso durante la raccolta dei dati. Quando si combinano set di dati da più posizioni, si prelevano dati o si ricevono dati da client o da più reparti, è possibile creare dati duplicati. La de-duplicazione è una delle aree più grandi da considerare in questo processo.
Le osservazioni irrilevanti sono quando si notano osservazioni che non rientrano nel problema specifico che si sta tentando di analizzare. Ad esempio, se si desidera analizzare i dati relativi ai clienti millennial, ma il set di dati include le generazioni precedenti, è possibile rimuovere tali osservazioni irrilevanti. Ciò può rendere l’analisi più efficiente e ridurre al minimo la distrazione dal target principale, oltre a creare un set di dati più gestibile e più performante.
Passo 2: Correggere gli errori strutturali
Gli errori strutturali si verificano quando si misurano o trasferiscono dati e si notano strane convenzioni di denominazione, errori di battitura o maiuscole errate. Queste incongruenze possono causare categorie o classi con etichette errate. Ad esempio, potresti trovare “N/A” e “Non applicabile” entrambi appaiono, ma dovrebbero essere analizzati come la stessa categoria.
Punto 3: Filtro valori anomali indesiderati
Spesso, ci saranno osservazioni una tantum in cui, a colpo d’occhio, non sembrano rientrare nei dati che si stanno analizzando. Se si dispone di un motivo legittimo per rimuovere un outlier, come l’immissione impropria dei dati, in questo modo si aiuterà le prestazioni dei dati con cui si sta lavorando. Tuttavia, a volte è l’aspetto di un outlier che dimostrerà una teoria su cui stai lavorando.
Ricorda: solo perché esiste un outlier, non significa che non sia corretto. Questo passaggio è necessario per determinare la validità di quel numero. Se un outlier risulta irrilevante per l’analisi o è un errore, considerare la possibilità di rimuoverlo.
Passaggio 4: Gestire i dati mancanti
Non è possibile ignorare i dati mancanti perché molti algoritmi non accetteranno i valori mancanti. Ci sono un paio di modi per gestire i dati mancanti. Nessuno dei due è ottimale, ma entrambi possono essere considerati.
- Come prima opzione, puoi eliminare le osservazioni che hanno valori mancanti, ma facendo questo cadranno o perderanno informazioni, quindi sii consapevole di questo prima di rimuoverlo.
- Come seconda opzione, è possibile inserire i valori mancanti in base ad altre osservazioni; ancora una volta, c’è l’opportunità di perdere l’integrità dei dati perché potresti operare da ipotesi e non da osservazioni effettive.
- Come terza opzione, è possibile modificare il modo in cui i dati vengono utilizzati per navigare efficacemente i valori null.
Passaggio 4: Convalida e QA
Alla fine del processo di pulizia dei dati, dovresti essere in grado di rispondere a queste domande come parte della convalida di base:
- I dati hanno senso?
- I dati seguono le regole appropriate per il suo campo?
- Dimostra o confuta la tua teoria di lavoro o porta alla luce qualsiasi intuizione?
- Riesci a trovare le tendenze nei dati per aiutarti a formare la tua prossima teoria?
- In caso contrario, è a causa di un problema di qualità dei dati?
Conclusioni false a causa di dati errati o “sporchi” possono informare una strategia aziendale scadente e il processo decisionale. Conclusioni false possono portare a un momento imbarazzante in una riunione di reporting quando ti rendi conto che i tuoi dati non resistono al controllo.
Prima di arrivarci, è importante creare una cultura dei dati di qualità nella vostra organizzazione. Per fare ciò, dovresti documentare gli strumenti che potresti utilizzare per creare questa cultura e cosa significa per te la qualità dei dati.
Componenti dei dati di qualità
Determinare la qualità dei dati richiede un esame delle sue caratteristiche, quindi pesare tali caratteristiche in base a ciò che è più importante per l’organizzazione e le applicazioni per le quali verranno utilizzate.
5 caratteristiche dei dati di qualità
- Validità. Il grado in cui i dati sono conformi a regole o vincoli aziendali definiti.
- Precisione. Assicurati che i tuoi dati siano vicini ai valori reali.
- Completezza. Il grado in cui tutti i dati richiesti sono noti.
- Coerenza. Assicurarsi che i dati siano coerenti all’interno dello stesso set di dati e/o su più set di dati.
- Uniformità. Il grado in cui i dati sono specificati utilizzando la stessa unità di misura.
Vantaggi della pulizia dei dati
Avere dati puliti aumenterà in ultima analisi la produttività complessiva e consentirà informazioni di altissima qualità nel processo decisionale. I vantaggi includono:
- Rimozione di errori quando più fonti di dati sono in gioco.
- Meno errori fanno per i clienti più felici e dipendenti meno frustrati.
- Possibilità di mappare le diverse funzioni e ciò che i dati sono destinati a fare.
- Monitoraggio degli errori e migliore reporting per vedere dove gli errori sono provenienti da, rendendo più facile per correggere i dati errati o corrotti per le applicazioni future.
- L’utilizzo di strumenti per la pulizia dei dati consentirà pratiche aziendali più efficienti e un processo decisionale più rapido.
Strumenti di pulizia dei dati e software per l’efficienza
Software come Tableau Prep può aiutare a guidare una cultura dei dati di qualità, fornendo modi visivi e diretti per combinare e pulire i dati. Tableau Prep ha due prodotti: Tableau Prep Builder per la creazione dei flussi di dati e Tableau Prep Conductor per la pianificazione, il monitoraggio e la gestione dei flussi in tutta l’organizzazione. L’utilizzo di uno strumento di scrubbing dei dati consente di risparmiare un notevole lasso di tempo a un amministratore di database, aiutando gli analisti o gli amministratori a iniziare le analisi più velocemente e ad avere maggiore fiducia nei dati.
Comprendere la qualità dei dati e gli strumenti necessari per creare, gestire e trasformare i dati è un passo importante per prendere decisioni aziendali efficienti ed efficaci. Questo processo cruciale svilupperà ulteriormente una cultura dei dati nella tua organizzazione. Per vedere come Tableau Prep può avere un impatto sulla tua organizzazione, leggi come l’agenzia di marketing Tinuiti ha centralizzato oltre 100 origini dati in Tableau Prep e ha scalato le loro analisi di marketing per 500 clienti.