När du använder data är de flesta överens om att dina insikter och analyser bara är lika bra som de data du använder. I huvudsak är skräpdata i skräpanalys ut. Data rengöring, även kallad data rengöring och data skrubbning, är en av de viktigaste stegen för din organisation om du vill skapa en kultur kring kvalitetsdata beslutsfattande.
vad är data rengöring?
datarengöring är processen att fixa eller ta bort felaktiga, skadade, felaktigt formaterade, duplicerade eller ofullständiga data i en dataset.
När man kombinerar flera datakällor finns det många möjligheter för data att dupliceras eller felmärkas. Om data är felaktiga är resultat och algoritmer opålitliga, även om de kan se korrekta ut. Det finns inget absolut sätt att förskriva de exakta stegen i datarengöringsprocessen eftersom processerna kommer att variera från dataset till dataset. Men det är viktigt att skapa en mall för din datarengöringsprocess så att du vet att du gör det på rätt sätt varje gång.
vad är skillnaden mellan datarengöring och datatransformation?
Data rengöring är den process som tar bort data som inte hör hemma i din dataset. Datatransformation är processen att konvertera data från ett format eller en struktur till en annan. Transformationsprocesser kan också kallas data wrangling, eller data munging, omvandla och kartlägga data från en ”rå” dataform till ett annat format för lagring och analys. Denna artikel fokuserar på processerna för rengöring av dessa data.
Hur rengör du data?
medan de tekniker som används för datarengöring kan variera beroende på vilka typer av data ditt företag lagrar, kan du följa dessa grundläggande steg för att kartlägga ett ramverk för din organisation.
Steg 1: Ta bort dubbla eller irrelevanta observationer
Ta bort oönskade observationer från din dataset, inklusive dubbla observationer eller irrelevanta observationer. Dubbla observationer kommer att hända oftast under datainsamling. När du kombinerar datamängder från flera platser, skrapar data eller tar emot data från klienter eller flera avdelningar finns det möjligheter att skapa dubbla data. Deduplikation är ett av de största områden som ska beaktas i denna process.
irrelevanta observationer är när du märker observationer som inte passar in i det specifika problemet du försöker analysera. Om du till exempel vill analysera data om tusenåriga kunder, men din dataset innehåller äldre generationer, kan du ta bort de irrelevanta observationerna. Detta kan göra analysen effektivare och minimera distraktion från ditt primära mål—samt skapa en mer hanterbar och mer prestanda dataset.
steg 2: Fixa strukturfel
strukturfel är när du mäter eller överför data och märker konstiga namnkonventioner, skrivfel eller felaktig kapitalisering. Dessa inkonsekvenser kan orsaka felmärkta kategorier eller klasser. Till exempel kan du hitta ”N/A” och ”ej tillämpligt” båda visas, men de bör analyseras som samma kategori.
steg 3: Filtrera oönskade avvikare
ofta kommer det att finnas engångsobservationer där de i en överblick inte verkar passa in i de data du analyserar. Om du har en legitim anledning att ta bort en outlier, som felaktig datainmatning, kommer det att hjälpa prestandan för de data du arbetar med. Men ibland är det utseendet på en outlier som kommer att bevisa en teori du arbetar med.
Kom ihåg: bara för att det finns en outlier betyder det inte att det är felaktigt. Detta steg behövs för att bestämma giltigheten för det numret. Om en outlier visar sig vara irrelevant för analys eller är ett misstag, överväga att ta bort det.
steg 4: Hantera saknade data
Du kan inte ignorera saknade data eftersom många algoritmer inte accepterar saknade värden. Det finns ett par sätt att hantera saknade data. Varken är optimalt, men båda kan övervägas.
- som ett första alternativ kan du släppa observationer som saknar värden, men att göra detta kommer att släppa eller förlora information, så var uppmärksam på detta innan du tar bort det.
- som ett andra alternativ kan du mata in saknade värden baserat på andra observationer; återigen finns det en möjlighet att förlora integriteten av data eftersom du kan fungera från antaganden och inte faktiska observationer.
- som ett tredje alternativ kan du ändra hur data används för att effektivt navigera i null-värden.
steg 4: validera och QA
i slutet av datarengöringsprocessen bör du kunna svara på dessa frågor som en del av grundläggande validering:
- är data meningsfullt?
- följer data lämpliga regler för sitt fält?
- bevisar eller motbevisar det din arbetsteori, eller ger någon insikt i ljuset?
- kan du hitta trender i data för att hjälpa dig att bilda din nästa teori?
- Om inte, är det på grund av en datakvalitetsproblem?
falska slutsatser på grund av felaktiga eller ”smutsiga” data kan informera dålig affärsstrategi och beslutsfattande. Falska slutsatser kan leda till ett pinsamt ögonblick i ett rapporteringsmöte när du inser att dina data inte står upp till granskning.
innan du kommer dit är det viktigt att skapa en kultur av kvalitetsdata i din organisation. För att göra detta bör du dokumentera de verktyg du kan använda för att skapa denna kultur och vad datakvalitet betyder för dig.
komponenter i kvalitetsdata
att bestämma kvaliteten på data kräver en undersökning av dess egenskaper och väger sedan dessa egenskaper enligt vad som är viktigast för din organisation och de applikationer som de kommer att användas för.
5 egenskaper för kvalitetsdata
- giltighet. I vilken grad dina uppgifter överensstämmer med definierade affärsregler eller begränsningar.
- noggrannhet. Se till att dina data ligger nära de sanna värdena.
- fullständighet. I vilken grad alla nödvändiga uppgifter är kända.
- konsistens. Se till att dina data är konsekventa inom samma dataset och / eller över flera dataset.
- enhetlighet. I vilken grad uppgifterna anges med samma måttenhet.
fördelar med datarengöring
att ha rena data kommer i slutändan att öka den totala produktiviteten och möjliggöra information av högsta kvalitet i ditt beslutsfattande. Fördelarna inkluderar:
- borttagning av fel när flera datakällor är på spel.
- färre fel ger lyckligare kunder och mindre frustrerade anställda.
- möjlighet att kartlägga de olika funktionerna och vad dina data är avsedda att göra.
- Övervakningsfel och bättre rapportering för att se var fel kommer ifrån, vilket gör det lättare att fixa felaktiga eller korrupta data för framtida applikationer.
- använda verktyg för data rengöring kommer att göra för effektivare affärsmetoder och snabbare beslutsfattande.
Datarengöringsverktyg och programvara för effektivitet
programvara som Tableau Prep kan hjälpa dig att driva en kvalitetsdatakultur genom att tillhandahålla visuella och direkta sätt att kombinera och rengöra dina data. Tableau Prep har två produkter: Tableau Prep Builder för att bygga dina dataflöden och Tableau Prep Conductor för schemaläggning, övervakning och hantering av flöden i hela organisationen. Med hjälp av en data skrubbverktyg kan spara en Databasadministratör en betydande tid genom att hjälpa analytiker eller administratörer starta sina analyser snabbare och har mer förtroende för data.att förstå datakvalitet och de verktyg du behöver för att skapa, hantera och omvandla data är ett viktigt steg mot att göra effektiva och effektiva affärsbeslut. Denna viktiga process kommer att vidareutveckla en Datakultur i din organisation. För att se hur Tableau Prep kan påverka din organisation, läs om hur marknadsföringsbyrån Tinuiti centraliserade 100-plus-datakällor i Tableau Prep och skalade deras marknadsföringsanalys för 500-kunder.