Při použití údajů, většina lidí souhlasí s tím, že vaše postřehy a analýzy jsou jen tak dobré, jako data, která používáte. V podstatě, odpadky data v je analýza odpadků ven. Čištění dat, také odkazoval se na jako čištění dat a čištění dat, je jedním z nejdůležitějších kroků pro vaši organizaci, pokud chcete vytvořit kulturu kolem údajů o kvalitě rozhodování.
co je čištění dat?
čištění dat je proces opravy nebo odstranění nesprávných, poškozených, nesprávně formátovaných, duplicitních nebo neúplných dat v datové sadě.
při kombinování více zdrojů dat existuje mnoho možností, jak data duplikovat nebo nesprávně označit. Pokud jsou data nesprávná, výsledky a algoritmy jsou nespolehlivé, i když mohou vypadat správně. Neexistuje žádný absolutní způsob, jak předepsat přesné kroky v procesu čištění dat, protože procesy se budou lišit od datové sady k datové sadě. Je však důležité vytvořit šablonu pro proces čištění dat, abyste věděli, že to děláte pokaždé správným způsobem.
jaký je rozdíl mezi čištěním dat a transformací dat?
čištění dat je proces, který odstraňuje data, která nepatří do vaší datové sady. Transformace dat je proces převodu dat z jednoho formátu nebo struktury do jiného. Transformační procesy mohou být také označovány jako data wrangling nebo data munging, transformace a mapování dat z jedné „surové“ datové formy do jiného formátu pro skladování a analýzu. Tento článek se zaměřuje na procesy čištění těchto dat.
jak čistíte data?
zatímco techniky používané pro čištění dat se mohou lišit v závislosti na typech dat, které vaše společnost ukládá, můžete podle těchto základních kroků zmapovat rámec pro vaši organizaci.
Krok 1: odstraňte duplicitní nebo irelevantní pozorování
Odstraňte nežádoucí pozorování z datové sady, včetně duplicitních pozorování nebo irelevantních pozorování. Duplicitní pozorování se stane nejčastěji během sběru dat. Když kombinujete datové sady z více míst, škrábáte data nebo přijímáte data od klientů nebo více oddělení, existují příležitosti k vytvoření duplicitních dat. De-duplikace je jednou z největších oblastí, které je třeba v tomto procesu zvážit.
irelevantní pozorování jsou, když si všimnete pozorování, která nezapadají do konkrétního problému, který se pokoušíte analyzovat. Například, pokud chcete analyzovat data o tisícileté zákazníky, ale dataset obsahuje starší generace, můžete odstranit ty nepodstatné připomínky. To může zefektivnit analýzu a minimalizovat rozptýlení od vašeho primárního cíle – a také vytvořit zvládnutelnější a výkonnější datovou sadu.
Krok 2: Opravte strukturální chyby
strukturální chyby jsou při měření nebo přenosu dat a zaznamenáte podivné konvence pojmenování, překlepy nebo nesprávná velká písmena. Tyto nesrovnalosti mohou způsobit nesprávně označené kategorie nebo třídy. Můžete například najít „N/ A „a“ Nepoužije se“, ale měly by být analyzovány jako stejná kategorie.
Krok 3: Filtr nežádoucích výchylek
Často, tam bude jeden-off vyjádření, kde na první pohled se nezdá, aby se vešly do data analyzujeme. Pokud máte legitimní důvod k odstranění odlehlé hodnoty, jako je nesprávné zadávání dat, pomůže to výkon dat, se kterými pracujete. Někdy se však jedná o vzhled odlehlé hodnoty, který prokáže teorii, na které pracujete.
pamatujte: to, že existuje odlehlá hodnota, neznamená, že je nesprávná. Tento krok je nutný k určení platnosti tohoto čísla. Pokud se odlehlá hodnota ukáže jako irelevantní pro analýzu nebo je chybou, zvažte její odstranění.
Krok 4: zpracování chybějících dat
nemůžete ignorovat chybějící data, protože mnoho algoritmů nepřijme chybějící hodnoty. Existuje několik způsobů, jak se vypořádat s chybějícími daty. Ani jeden není optimální, ale lze zvážit obojí.
- Jako první možnost, můžete přetáhnout připomínky, které mají chybějící hodnoty, ale dělá to klesne nebo ztratit informace, tak dbát na to, než ji odstranit.
- jako druhou možnost můžete zadat chybějící hodnoty na základě jiných pozorování; opět existuje možnost ztratit integritu dat, protože můžete pracovat z předpokladů a ne skutečných pozorování.
- jako třetí možnost můžete změnit způsob, jakým se data používají k efektivní navigaci hodnot null.
Krok 4: Ověření a QA
Na konci čištění dat procesu, měli byste být schopni odpovědět na tyto otázky, jako součást základní ověřování:
- data smysl?
- dodržují data příslušná pravidla pro své pole?
- dokazuje nebo vyvrací vaši pracovní teorii, nebo přináší nějaký vhled na světlo?
- můžete najít trendy v datech, které vám pomohou vytvořit další teorii?
- Pokud ne, je to kvůli problému s kvalitou dat?
falešné závěry z důvodu nesprávných nebo“ špinavých “ údajů mohou informovat špatnou obchodní strategii a rozhodování. Falešné závěry mohou vést k trapnému okamžiku v reportovací schůzce, když si uvědomíte, že Vaše data neobstojí při kontrole.
než se tam dostanete, je důležité vytvořit kulturu kvalitních dat ve vaší organizaci. Chcete-li to provést, měli byste zdokumentovat nástroje, které můžete použít k vytvoření této kultury a co pro vás znamená kvalita dat.
Složky kvality dat
Určování kvality dat vyžaduje přezkoumání jeho charakteristiky, pak vážení, tyto charakteristiky, podle toho, co je nejvíce důležité, aby vaše organizace a aplikace(y), pro které budou použity.
5 charakteristika údajů o kvalitě
- platnost. Míra, do jaké jsou vaše údaje v souladu s definovanými obchodními pravidly nebo omezeními.
- přesnost. Ujistěte se, že se vaše data blíží skutečným hodnotám.
- úplnost. Míra, do jaké jsou známy všechny požadované údaje.
- konzistence. Ujistěte se, že Vaše data jsou konzistentní ve stejném datovém souboru a / nebo ve více datových sadách.
- uniformita. Míra, do jaké jsou data zadána pomocí stejné měrné jednotky.
výhody čištění dat
čisté údaje nakonec zvýší celkovou produktivitu a umožní vám informace nejvyšší kvality ve vašem rozhodování. Mezi výhody patří:
- odstranění chyb, když je ve hře více zdrojů dat.
- méně chyb způsobuje šťastnější klienty a méně frustrované zaměstnance.
- schopnost mapovat různé funkce a to, co jsou vaše data určena k tomu.
- monitorování chyb a lepší hlášení, abyste zjistili, odkud pocházejí chyby, což usnadňuje opravu nesprávných nebo poškozených dat pro budoucí aplikace.
- použití nástrojů pro čištění dat přispěje k efektivnějším obchodním postupům a rychlejšímu rozhodování.
čištění Dat nástroje a software pro účinnost
Software, jako je Tablo Prep pomůže vám řídit kvalitu dat kultury tím, že poskytuje vizuální a přímé způsoby, jak se spojit a vyčistit data. Tableau Prep má dva produkty: Tableau Prep Builder pro budování datových toků a Tableau Prep dirigent pro plánování, monitorování a řízení toků v celé organizaci. Použití nástroje pro čištění dat může správci databáze ušetřit značné množství času tím, že pomůže analytikům nebo správcům rychleji zahájit analýzy a mít větší důvěru v data.
pochopení kvality dat a nástrojů, které potřebujete k vytváření, správě a transformaci dat, je důležitým krokem k efektivnímu a efektivnímu podnikání. Tento zásadní proces dále rozvíjí datovou kulturu ve vaší organizaci. Vidět, jak Tablo Přípravka může mít dopad na vaši organizaci, přečtěte si o tom, jak marketingová agentura Tinuiti centralizované 100-plus zdroje dat v Tableau Prep a zmenšen jejich marketing analytics pro 500 klientů.