ao usar dados, a maioria das pessoas concorda que seus insights e análise são tão bons quanto os dados que você está usando. Essencialmente, os dados do lixo estão fora da análise do lixo. A limpeza de dados, também referida como limpeza de dados e depuração de dados, é um dos passos mais importantes para a sua organização se você quiser criar uma cultura em torno da tomada de decisão de dados de qualidade.o que é a limpeza de dados?
limpeza de dados é o processo de fixação ou remoção de dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos dentro de um conjunto de dados. ao combinar várias fontes de dados, existem muitas oportunidades para que os dados sejam duplicados ou mal etiquetados. Se os dados são incorretos, resultados e algoritmos não são confiáveis, mesmo que possam parecer corretos. Não há uma maneira absoluta de prescrever os passos exatos no processo de limpeza de dados, porque os processos vão variar de conjunto de dados a conjunto de dados. Mas é crucial estabelecer um modelo para o seu processo de limpeza de dados para que você saiba que você está fazendo isso da maneira certa todas as vezes.qual é a diferença entre a limpeza de dados e a transformação de dados?
limpeza de dados é o processo que remove dados que não pertencem ao seu conjunto de dados. Transformação de dados é o processo de conversão de dados de um formato ou estrutura em outro. Os processos de transformação também podem ser referidos como wrangling de dados, ou munging de dados, transformando e mapeando dados de uma forma de dados “raw” em outro formato para armazenamento e análise. Este artigo centra-se nos processos de limpeza desses dados.como limpar os dados?
embora as técnicas utilizadas para a limpeza de dados possam variar de acordo com os tipos de dados que a sua empresa armazena, você pode seguir estes passos básicos para mapear uma estrutura para a sua organização.
Passo 1: Remover observações duplicadas ou irrelevantes
remover observações indesejadas do seu conjunto de dados, incluindo observações duplicadas ou observações irrelevantes. Observações duplicadas ocorrerão na maioria das vezes durante a coleta de dados. Quando você combina conjuntos de dados de vários lugares, raspar dados, ou receber dados de clientes ou vários departamentos, há oportunidades de criar dados duplicados. A des duplicação é uma das maiores áreas a considerar neste processo.
observações irrelevantes são quando você observa observações que não se encaixam no problema específico que você está tentando analisar. Por exemplo, se você quiser analisar dados sobre clientes milenares, mas seu conjunto de dados inclui gerações mais velhas, você pode remover essas observações irrelevantes. Isso pode tornar a análise mais eficiente e minimizar a distração do seu alvo primário—bem como criar um conjunto de dados mais gerenciável e mais performante.
Passo 2: Corrigir erros estruturais
erros estruturais são quando você mede ou transfere dados e nota Convenções de nomes estranhos, erros de tipo, ou capitalização incorreta. Estas inconsistências podem causar categorias ou classes mal etiquetadas. Por exemplo, você pode encontrar “N/A” E “Não aplicável” ambos aparecem, mas eles devem ser analisados como a mesma categoria.
Passo 3: Filtrar anómalos indesejados
muitas vezes, haverá observações pontuais onde, à primeira vista, eles não parecem caber dentro dos dados que você está analisando. Se você tem uma razão legítima para remover um outlier, como entrada de dados imprópria, fazê-lo irá ajudar o desempenho dos dados que você está trabalhando com. No entanto, às vezes é a aparência de um outlier que provará uma teoria em que você está trabalhando.
lembre-se: só porque existe um outlier, não significa que esteja incorreto. Esta etapa é necessária para determinar a validade desse número. Se um outlier provar ser irrelevante para análise ou é um erro, considere removê-lo.
Passo 4: lidar com os dados em falta
não pode ignorar os dados em falta porque muitos algoritmos não aceitam valores em falta. Há algumas maneiras de lidar com dados em falta. Nenhum dos dois é ideal, mas ambos podem ser considerados.
- como primeira opção, você pode largar as observações que têm valores em falta, mas se fizer isso irá cair ou perder a informação, por isso tenha cuidado com isso antes de removê-lo.
- Como segunda opção, poderá introduzir valores em falta com base noutras observações; mais uma vez, há uma oportunidade de perder a integridade dos dados porque você pode estar operando a partir de pressupostos e não observações reais.
- Como terceira opção, você pode alterar a forma como os dados são usados para navegar efetivamente os valores nulos.
Passo 4: Validar e QA
No final do processo de limpeza de dados, você deve ser capaz de responder a essas questões como parte de uma validação básica:
- os dados fazem sentido?os dados seguem as regras apropriadas para o seu campo?isso prova ou refuta a sua teoria de trabalho, ou traz algum conhecimento à luz?pode encontrar tendências nos dados para o ajudar a formar a sua próxima teoria?caso contrário, será por causa de um problema de qualidade dos dados?conclusões falsas devido a dados incorrectos ou “sujos” podem informar a estratégia empresarial e o processo de tomada de decisões. Falsas conclusões podem levar a um momento embaraçoso em uma reunião de reportagem quando você percebe que seus dados não resistem ao escrutínio.antes de chegar lá, é importante criar uma cultura de dados de qualidade em sua organização. Para fazer isso, você deve documentar as ferramentas que você pode usar para criar esta cultura e o que a qualidade dos dados significa para você.para determinar a qualidade dos dados, é necessário examinar as suas características e, em seguida, ponderar essas características de acordo com o que é mais importante para a sua organização e a(s) Aplicação (ões) para a (S) qual (is) serão utilizadas.
5 características dos dados de qualidade
- validade. O grau em que os seus dados estão em conformidade com regras ou restrições de Negócio definidas.precisão. Certifique-se de que os seus dados estão próximos dos valores verdadeiros.exaustividade. O grau de conhecimento de todos os dados necessários.consistência. Certifique-se de que os seus dados são consistentes dentro do mesmo conjunto de dados e/ou através de vários conjuntos de dados. uniformidade. O grau em que os dados são especificados utilizando a mesma unidade de medida. os benefícios da limpeza de dados com dados limpos irão, em última análise, aumentar a produtividade global e permitir a informação da mais alta qualidade na sua tomada de decisão. Os benefícios incluem:
- remoção de erros quando várias fontes de dados estão em jogo.menos erros fazem com que clientes mais felizes e empregados menos frustrados.
- Capacidade de mapear as diferentes funções e o que seus dados são destinados a fazer.
- monitorando erros e relatando melhor para ver de onde os erros estão vindo, tornando mais fácil corrigir dados incorretos ou corruptos para futuras aplicações.a utilização de ferramentas para a limpeza de dados permitirá práticas comerciais mais eficientes e uma tomada de decisão mais rápida.
ferramentas de limpeza de dados e software para eficiência
Software como Tableau Prep pode ajudá-lo a conduzir uma cultura de dados de qualidade, fornecendo formas visuais e diretas de combinar e limpar os seus dados. Tableau Prep tem dois produtos: Tableau Prep Builder para a construção de seus fluxos de dados e Tableau Prep Conductor para agendamento, monitoramento e gestão de fluxos em toda a sua organização. Usando uma ferramenta de depuração de dados pode salvar um administrador de banco de dados uma quantidade significativa de tempo, ajudando analistas ou administradores a iniciar suas análises mais rapidamente e ter mais confiança nos dados.
compreender a qualidade dos dados e as ferramentas que você precisa para criar, gerenciar e transformar dados é um passo importante para fazer decisões de negócios eficientes e eficazes. Este processo crucial irá desenvolver ainda mais uma cultura de dados em sua organização. Para ver como Tableau Prep pode impactar sua organização, leia sobre como a Agência de marketing Tinuiti centralizou 100 fontes de dados mais no Tableau Prep e escalou suas análises de marketing para 500 clientes.
- validade. O grau em que os seus dados estão em conformidade com regras ou restrições de Negócio definidas.precisão. Certifique-se de que os seus dados estão próximos dos valores verdadeiros.exaustividade. O grau de conhecimento de todos os dados necessários.consistência. Certifique-se de que os seus dados são consistentes dentro do mesmo conjunto de dados e/ou através de vários conjuntos de dados. uniformidade. O grau em que os dados são especificados utilizando a mesma unidade de medida. os benefícios da limpeza de dados com dados limpos irão, em última análise, aumentar a produtividade global e permitir a informação da mais alta qualidade na sua tomada de decisão. Os benefícios incluem: