podczas korzystania z danych większość ludzi zgadza się, że twoje spostrzeżenia i analizy są tak dobre, jak dane, których używasz. Zasadniczo dane śmieciowe są analizowane. Czyszczenie danych, zwane również czyszczeniem danych i czyszczeniem danych, jest jednym z najważniejszych kroków dla Twojej organizacji, jeśli chcesz stworzyć kulturę wokół podejmowania decyzji dotyczących jakości danych.
co to jest czyszczenie danych?
czyszczenie danych to proces naprawiania lub usuwania nieprawidłowych, uszkodzonych, nieprawidłowo sformatowanych, zduplikowanych lub niekompletnych danych w zbiorze danych.
w przypadku łączenia wielu źródeł danych istnieje wiele możliwości powielania lub błędnego etykietowania danych. Jeśli dane są nieprawidłowe, wyniki i algorytmy są niewiarygodne, nawet jeśli mogą wyglądać poprawnie. Nie ma jednego bezwzględnego sposobu na przepisanie dokładnych kroków w procesie czyszczenia danych, ponieważ procesy będą się różnić w zależności od zbioru danych. Ważne jest jednak, aby stworzyć szablon dla procesu czyszczenia danych, abyś wiedział, że robisz to we właściwy sposób za każdym razem.
Jaka jest różnica między czyszczeniem danych a ich transformacją?
czyszczenie danych to proces, który usuwa dane, które nie należą do Twojego zbioru danych. Transformacja danych to proces konwersji danych z jednego formatu lub struktury w inny. Procesy transformacji mogą być również określane jako data wrangling lub data munging, przekształcanie i mapowanie danych z jednego „surowego” formularza danych do innego formatu do magazynowania i analizy. Ten artykuł koncentruje się na procesach czyszczenia tych danych.
jak czyścić dane?
chociaż techniki używane do czyszczenia danych mogą się różnić w zależności od rodzaju danych przechowywanych w firmie, możesz wykonać te podstawowe kroki, aby stworzyć ramy dla swojej organizacji.
Krok 1: Usuń zduplikowane lub nieistotne obserwacje
Usuń niechciane obserwacje z zestawu danych, w tym zduplikowane obserwacje lub nieistotne obserwacje. Zduplikowane obserwacje będą miały miejsce najczęściej podczas zbierania danych. Gdy łączysz zestawy danych z wielu miejsc, zeskrobujesz dane lub odbierasz dane od klientów lub wielu działów, istnieje możliwość tworzenia zduplikowanych danych. Deduplikacja jest jednym z największych obszarów, które należy uwzględnić w tym procesie.
nieistotne obserwacje są wtedy, gdy zauważysz obserwacje, które nie pasują do konkretnego problemu, który próbujesz przeanalizować. Na przykład, jeśli chcesz analizować dane dotyczące klientów milenijnych, ale twój zbiór danych obejmuje starsze pokolenia, możesz usunąć te nieistotne obserwacje. Może to zwiększyć wydajność analizy i zminimalizować rozproszenie uwagi od głównego celu-a także stworzyć łatwiejszy i bardziej wydajny zbiór danych.
Krok 2: Napraw błędy strukturalne
błędy strukturalne występują, gdy mierzysz lub przesyłasz dane i zauważasz dziwne konwencje nazewnictwa, literówki lub nieprawidłowe wielkie litery. Te niespójności mogą powodować błędne oznaczenia kategorii lub klas. Na przykład, można znaleźć „N/A” i „nie dotyczy” oba pojawiają się, ale powinny być analizowane jako tej samej kategorii.
Krok 3: Filtruj niechciane wartości odstające
często będą to jednorazowe obserwacje, w których na pierwszy rzut oka nie mieszczą się one w danych, które analizujesz. Jeśli masz uzasadniony powód do usunięcia wartości odstającej, takiej jak niewłaściwe wprowadzanie danych, pomoże to w wykonaniu danych, z którymi pracujesz. Jednak czasami jest to pojawienie się odstających, które udowodnią teorię, nad którą pracujesz.
pamiętaj: to, że outlier istnieje, nie znaczy, że jest niepoprawny. Ten krok jest potrzebny do określenia ważności tej liczby. Jeśli odstający okaże się nieistotny dla analizy lub jest błędem, rozważ usunięcie go.
Krok 4: Obsługa brakujących danych
nie można ignorować brakujących danych, ponieważ wiele algorytmów nie akceptuje brakujących wartości. Istnieje kilka sposobów radzenia sobie z brakami danych. Żaden z nich nie jest optymalny, ale oba można rozważyć.
- jako pierwsza opcja możesz usunąć obserwacje, które mają brakujące wartości, ale zrobienie tego spowoduje spadek lub utratę informacji, więc pamiętaj o tym przed usunięciem.
- jako druga opcja możesz wprowadzić brakujące wartości na podstawie innych obserwacji; ponownie, istnieje możliwość utraty integralności danych, ponieważ możesz działać na podstawie założeń, a nie rzeczywistych obserwacji.
- jako trzecia opcja możesz zmienić sposób, w jaki dane są używane do efektywnego poruszania się po wartościach null.
Krok 4: Walidacja i QA
Po zakończeniu procesu czyszczenia danych powinieneś być w stanie odpowiedzieć na te pytania w ramach podstawowej walidacji:
- czy dane mają sens?
- czy dane są zgodne z odpowiednimi regułami dla swojego pola?
- czy to udowadnia lub obala Twoją teorię działania, lub przynosi jakikolwiek wgląd na światło dzienne?
- czy możesz znaleźć trendy w danych, które pomogą ci sformułować następną teorię?
- Jeśli nie, to z powodu problemu z jakością danych?
fałszywe wnioski z powodu nieprawidłowych lub „brudnych” danych mogą stanowić podstawę złej strategii biznesowej i podejmowania decyzji. Fałszywe wnioski mogą prowadzić do kłopotliwego momentu na spotkaniu raportowym, gdy zdasz sobie sprawę, że Twoje dane nie wytrzymują kontroli.
zanim tam dotrzesz, ważne jest, aby stworzyć kulturę jakości danych w swojej organizacji. Aby to zrobić, powinieneś udokumentować narzędzia, których możesz użyć do stworzenia tej kultury i jakie znaczenie ma dla ciebie jakość danych.
Komponenty danych jakościowych
określenie jakości danych wymaga zbadania ich cech, a następnie ważenia tych cech zgodnie z tym, co jest najważniejsze dla Twojej organizacji i aplikacji, dla których będą używane.
5 charakterystyka danych jakościowych
- Ważność. Stopień, w jakim dane są zgodne z określonymi regułami biznesowymi lub ograniczeniami.
- dokładność. Upewnij się, że Twoje dane są zbliżone do prawdziwych wartości.
- kompletność. Stopień, w jakim wszystkie wymagane dane są znane.
- konsystencja. Upewnij się, że dane są spójne w tym samym zbiorze danych i/lub w wielu zestawach danych.
- jednorodność. Stopień, w jakim dane są określone przy użyciu tej samej jednostki miary.
korzyści z czyszczenia danych
posiadanie czystych danych ostatecznie zwiększy ogólną wydajność i pozwoli na uzyskanie najwyższej jakości informacji w procesie podejmowania decyzji. Korzyści obejmują:
- Usuwanie błędów, gdy w grę wchodzi wiele źródeł danych.
- mniej błędów czyni szczęśliwszych klientów i mniej sfrustrowanych pracowników.
- możliwość mapowania różnych funkcji i tego, co dane mają robić.
- monitorowanie błędów i lepsze raportowanie, aby zobaczyć, skąd pochodzą błędy, co ułatwia naprawianie nieprawidłowych lub uszkodzonych danych dla przyszłych aplikacji.
- Korzystanie z narzędzi do czyszczenia danych pozwoli na bardziej efektywne praktyki biznesowe i szybsze podejmowanie decyzji.
narzędzia i oprogramowanie do czyszczenia danych dla wydajności
oprogramowanie takie jak Tableau Prep może pomóc w prowadzeniu Kultury danych wysokiej jakości, zapewniając wizualne i bezpośrednie sposoby łączenia i czyszczenia danych. Tableau Prep ma dwa produkty: Tableau Prep Builder do budowania przepływów danych i Tableau Prep Conductor do planowania, monitorowania i zarządzania przepływami w całej organizacji. Korzystanie z narzędzia do szorowania danych może zaoszczędzić administratorowi bazy danych znaczną ilość czasu, pomagając analitykom lub administratorom szybciej rozpoczynać analizy i mieć większe zaufanie do danych.
zrozumienie jakości danych i narzędzi potrzebnych do tworzenia, zarządzania i przekształcania danych to ważny krok w kierunku podejmowania skutecznych i skutecznych decyzji biznesowych. Ten kluczowy proces będzie dalej rozwijał kulturę danych w Twojej organizacji. Aby zobaczyć, jak Tableau Prep może wpłynąć na Twoją organizację, przeczytaj o tym, jak Agencja Marketingowa tinuiti scentralizowała ponad 100 źródeł danych w Tableau Prep i skalowała swoje analizy marketingowe dla klientów 500.