Bei der Verwendung von Daten sind sich die meisten Menschen einig, dass Ihre Erkenntnisse und Analysen nur so gut sind wie die Daten, die Sie verwenden. Im Wesentlichen sind garbage data in garbage data out . Die Datenbereinigung, auch als Datenbereinigung und Datenbereinigung bezeichnet, ist einer der wichtigsten Schritte für Ihr Unternehmen, wenn Sie eine Kultur der Entscheidungsfindung für Qualitätsdaten schaffen möchten.
Was ist Datenbereinigung?
Bei der Datenbereinigung werden falsche, beschädigte, falsch formatierte, doppelte oder unvollständige Daten innerhalb eines Datensatzes repariert oder entfernt.
Beim Kombinieren mehrerer Datenquellen gibt es viele Möglichkeiten, dass Daten dupliziert oder falsch beschriftet werden. Wenn Daten falsch sind, sind Ergebnisse und Algorithmen unzuverlässig, auch wenn sie korrekt aussehen. Es gibt keine absolute Möglichkeit, die genauen Schritte im Datenbereinigungsprozess vorzuschreiben, da die Prozesse von Datensatz zu Datensatz variieren. Es ist jedoch wichtig, eine Vorlage für Ihren Datenreinigungsprozess zu erstellen, damit Sie wissen, dass Sie es jedes Mal richtig machen.
Was ist der Unterschied zwischen Datenbereinigung und Datentransformation?
Datenbereinigung ist der Prozess, der Daten entfernt, die nicht in Ihren Datensatz gehören. Datentransformation ist der Prozess der Konvertierung von Daten von einem Format oder einer Struktur in ein anderes. Transformationsprozesse können auch als Data Wrangling oder Data Munging bezeichnet werden, bei dem Daten von einer „rohen“ Datenform in ein anderes Format für die Lagerung und Analyse transformiert und abgebildet werden. Dieser Artikel konzentriert sich auf die Prozesse zum Bereinigen dieser Daten.
Wie bereinigt man Daten?
Während die für die Datenbereinigung verwendeten Techniken je nach Art der in Ihrem Unternehmen gespeicherten Daten variieren können, können Sie die folgenden grundlegenden Schritte ausführen, um einen Rahmen für Ihre Organisation festzulegen.
Schritt 1: Doppelte oder irrelevante Beobachtungen entfernen
Entfernen Sie unerwünschte Beobachtungen aus Ihrem Datensatz, einschließlich doppelter Beobachtungen oder irrelevanter Beobachtungen. Doppelte Beobachtungen treten am häufigsten während der Datenerfassung auf. Wenn Sie Datensätze aus mehreren Orten kombinieren, Daten kratzen oder Daten von Kunden oder mehreren Abteilungen empfangen, besteht die Möglichkeit, doppelte Daten zu erstellen. Die Deduplizierung ist einer der größten Bereiche, die in diesem Prozess berücksichtigt werden müssen.
Irrelevante Beobachtungen sind, wenn Sie Beobachtungen bemerken, die nicht in das spezifische Problem passen, das Sie analysieren möchten. Wenn Sie beispielsweise Daten zu Millennial-Kunden analysieren möchten, Ihr Datensatz jedoch ältere Generationen enthält, können Sie diese irrelevanten Beobachtungen entfernen. Dies kann die Analyse effizienter machen und die Ablenkung von Ihrem primären Ziel minimieren — sowie einen besser verwaltbaren und performanteren Datensatz erstellen.
Schritt 2: Strukturelle Fehler beheben
Strukturelle Fehler treten auf, wenn Sie Daten messen oder übertragen und seltsame Namenskonventionen, Tippfehler oder falsche Groß- und Kleinschreibung bemerken. Diese Inkonsistenzen können zu falsch beschrifteten Kategorien oder Klassen führen. Beispielsweise werden möglicherweise „N / A“ und „Nicht zutreffend“ angezeigt, aber sie sollten als dieselbe Kategorie analysiert werden.
Schritt 3: Unerwünschte Ausreißer filtern
Oft gibt es einmalige Beobachtungen, bei denen sie auf einen Blick nicht in die zu analysierenden Daten zu passen scheinen. Wenn Sie einen legitimen Grund haben, einen Ausreißer zu entfernen, z. B. eine unsachgemäße Dateneingabe, hilft dies der Leistung der Daten, mit denen Sie arbeiten. Manchmal ist es jedoch das Auftreten eines Ausreißers, der eine Theorie beweist, an der Sie arbeiten.
Denken Sie daran: Nur weil ein Ausreißer existiert, bedeutet das nicht, dass er falsch ist. Dieser Schritt ist erforderlich, um die Gültigkeit dieser Nummer zu bestimmen. Wenn sich herausstellt, dass ein Ausreißer für die Analyse irrelevant ist oder ein Fehler vorliegt, sollten Sie ihn entfernen.
Schritt 4: Fehlende Daten behandeln
Sie können fehlende Daten nicht ignorieren, da viele Algorithmen fehlende Werte nicht akzeptieren. Es gibt verschiedene Möglichkeiten, mit fehlenden Daten umzugehen. Beides ist nicht optimal, aber beide können in Betracht gezogen werden.
- Als erste Option können Sie Beobachtungen mit fehlenden Werten löschen, aber dadurch werden Informationen gelöscht oder verloren.
- Als zweite Option können Sie fehlende Werte basierend auf anderen Beobachtungen eingeben; auch hier besteht die Möglichkeit, die Integrität der Daten zu verlieren, da Sie möglicherweise von Annahmen und nicht von tatsächlichen Beobachtungen ausgehen.
- Als dritte Option können Sie die Art und Weise ändern, wie die Daten verwendet werden, um effektiv durch Nullwerte zu navigieren.
Schritt 4: Validierung und QA
Am Ende des Datenbereinigungsprozesses sollten Sie in der Lage sein, diese Fragen als Teil der grundlegenden Validierung zu beantworten:
- Sind die Daten sinnvoll?
- Folgen die Daten den entsprechenden Regeln für ihr Feld?
- Beweist oder widerlegt es Ihre Arbeitstheorie oder bringt es Erkenntnisse ans Licht?
- Können Sie Trends in den Daten finden, die Ihnen helfen, Ihre nächste Theorie zu formulieren?
- Wenn nicht, liegt das an einem Problem der Datenqualität?
Falsche Schlussfolgerungen aufgrund falscher oder „schmutziger“ Daten können zu einer schlechten Geschäftsstrategie und Entscheidungsfindung führen. Falsche Schlussfolgerungen können zu einem peinlichen Moment in einem Reporting-Meeting führen, wenn Sie feststellen, dass Ihre Daten einer Prüfung nicht standhalten.
Bevor Sie dorthin gelangen, ist es wichtig, eine Kultur der Qualitätsdaten in Ihrer Organisation zu schaffen. Dazu sollten Sie dokumentieren, mit welchen Tools Sie diese Kultur erstellen können und was Datenqualität für Sie bedeutet.
Komponenten von Qualitätsdaten
Die Bestimmung der Qualität von Daten erfordert eine Untersuchung ihrer Eigenschaften und dann eine Abwägung dieser Eigenschaften nach dem, was für Ihre Organisation und die Anwendung(en), für die sie verwendet werden, am wichtigsten ist.
5 Merkmale von Qualitätsdaten
- Gültigkeit. Der Grad, in dem Ihre Daten definierten Geschäftsregeln oder Einschränkungen entsprechen.
- Genauigkeit. Stellen Sie sicher, dass Ihre Daten nahe an den wahren Werten liegen.
- Vollständigkeit. Der Grad, in dem alle erforderlichen Daten bekannt sind.
- Konsistenz. Stellen Sie sicher, dass Ihre Daten innerhalb desselben Datensatzes und / oder über mehrere Datensätze hinweg konsistent sind.
- Einheitlichkeit. Der Grad, in dem die Daten mit derselben Maßeinheit angegeben werden.
Vorteile der Datenbereinigung
Saubere Daten erhöhen letztendlich die Gesamtproduktivität und ermöglichen Informationen von höchster Qualität bei Ihrer Entscheidungsfindung. Zu den Vorteilen gehören:
- Beseitigung von Fehlern, wenn mehrere Datenquellen im Spiel sind.
- Weniger Fehler sorgen für glücklichere Kunden und weniger frustrierte Mitarbeiter.
- Möglichkeit, die verschiedenen Funktionen abzubilden und was Ihre Daten tun sollen.
- Überwachung von Fehlern und bessere Berichterstellung, um zu sehen, woher Fehler kommen, wodurch es einfacher wird, falsche oder beschädigte Daten für zukünftige Anwendungen zu beheben.
- Die Verwendung von Tools zur Datenbereinigung wird zu effizienteren Geschäftspraktiken und schnelleren Entscheidungen führen.
Datenbereinigungstools und Software für Effizienz
Software wie Tableau Prep kann Ihnen helfen, eine qualitativ hochwertige Datenkultur zu fördern, indem Sie visuelle und direkte Möglichkeiten zum Kombinieren und Bereinigen Ihrer Daten bietet. Tableau Prep verfügt über zwei Produkte: Tableau Prep Builder zum Erstellen Ihrer Datenflüsse und Tableau Prep Conductor zum Planen, Überwachen und Verwalten von Datenflüssen in Ihrer Organisation. Durch die Verwendung eines Datenbereinigungstools kann ein Datenbankadministrator erheblich Zeit sparen, da Analysten oder Administratoren ihre Analysen schneller starten und mehr Vertrauen in die Daten haben.Das Verständnis der Datenqualität und der Tools, die Sie zum Erstellen, Verwalten und Transformieren von Daten benötigen, ist ein wichtiger Schritt, um effiziente und effektive Geschäftsentscheidungen zu treffen. Dieser entscheidende Prozess wird eine Datenkultur in Ihrer Organisation weiterentwickeln. Um zu erfahren, wie sich Tableau Prep auf Ihr Unternehmen auswirken kann, lesen Sie, wie die Marketingagentur Tinuiti mehr als 100 Datenquellen in Tableau Prep zentralisiert und ihre Marketinganalysen für 500 Kunden skaliert hat.