Al usar datos, la mayoría de las personas están de acuerdo en que sus conocimientos y análisis son tan buenos como los datos que está utilizando. Esencialmente, los datos basura que entran son análisis basura que salen. La limpieza de datos, también conocida como limpieza de datos y depuración de datos, es uno de los pasos más importantes para su organización si desea crear una cultura en torno a la toma de decisiones de datos de calidad.
¿Qué es la limpieza de datos?
La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, dañados, con un formato incorrecto, duplicados o incompletos dentro de un conjunto de datos.
Al combinar múltiples fuentes de datos, hay muchas oportunidades para que los datos se dupliquen o etiqueten incorrectamente. Si los datos son incorrectos, los resultados y los algoritmos no son fiables, aunque parezcan correctos. No hay una forma absoluta de prescribir los pasos exactos en el proceso de limpieza de datos porque los procesos variarán de un conjunto de datos a otro. Pero es crucial establecer una plantilla para su proceso de limpieza de datos para que sepa que lo está haciendo de la manera correcta en todo momento.
¿Cuál es la diferencia entre la limpieza de datos y la transformación de datos?
La limpieza de datos es el proceso que elimina los datos que no pertenecen al conjunto de datos. La transformación de datos es el proceso de convertir datos de un formato o estructura a otro. Los procesos de transformación también se pueden denominar organización de datos, o munging de datos, transformación y asignación de datos de un formulario de datos «sin procesar» a otro formato para almacenamiento y análisis. Este artículo se centra en los procesos de limpieza de esos datos.
¿Cómo se limpian los datos?
Si bien las técnicas utilizadas para la limpieza de datos pueden variar según los tipos de datos que almacena su empresa, puede seguir estos pasos básicos para trazar un marco para su organización.
Paso 1: Eliminar observaciones duplicadas o irrelevantes
Eliminar observaciones no deseadas del conjunto de datos, incluidas observaciones duplicadas u observaciones irrelevantes. Las observaciones duplicadas ocurren con mayor frecuencia durante la recopilación de datos. Cuando combina conjuntos de datos de varios lugares, extrae datos o recibe datos de clientes o de varios departamentos, hay oportunidades para crear datos duplicados. La eliminación de duplicaciones es una de las esferas más importantes que se han de considerar en este proceso.
Las observaciones irrelevantes son cuando notas observaciones que no encajan en el problema específico que intentas analizar. Por ejemplo, si desea analizar datos sobre clientes de la generación del milenio, pero su conjunto de datos incluye generaciones anteriores, puede eliminar esas observaciones irrelevantes. Esto puede hacer que el análisis sea más eficiente y minimizar la distracción de su objetivo principal—además de crear un conjunto de datos más manejable y de mayor rendimiento.
Paso 2: Corrección de errores estructurales
Los errores estructurales se producen cuando mides o transfieres datos y notas convenciones de nomenclatura extrañas, errores tipográficos o mayúsculas incorrectas. Estas inconsistencias pueden causar categorías o clases mal etiquetadas. Por ejemplo, puede encontrar que aparecen «N / A» y «No aplicable», pero deben analizarse como la misma categoría.
Paso 3: Filtrar valores atípicos no deseados
A menudo, habrá observaciones únicas en las que, de un vistazo, no parecen encajar dentro de los datos que está analizando. Si tiene una razón legítima para eliminar un valor atípico, como la entrada de datos incorrecta, hacerlo ayudará al rendimiento de los datos con los que está trabajando. Sin embargo, a veces es la aparición de un valor atípico lo que probará una teoría en la que está trabajando.
Recuerde: solo porque exista un valor atípico, no significa que sea incorrecto. Este paso es necesario para determinar la validez de ese número. Si un valor atípico resulta ser irrelevante para el análisis o es un error, considere eliminarlo.
Paso 4: Maneje los datos faltantes
No puede ignorar los datos faltantes porque muchos algoritmos no aceptarán valores faltantes. Hay un par de maneras de lidiar con los datos faltantes. Ninguno de los dos es óptimo, pero ambos pueden considerarse.
- Como primera opción, puede eliminar las observaciones que tienen valores faltantes, pero al hacerlo, perderá o perderá información, así que tenga en cuenta esto antes de eliminarla.
- Como segunda opción, puede introducir valores faltantes en función de otras observaciones; una vez más, existe la oportunidad de perder la integridad de los datos porque puede estar operando a partir de suposiciones y no de observaciones reales.
- Como tercera opción, puede alterar la forma en que se utilizan los datos para navegar de manera efectiva por los valores nulos.
Paso 4: Validación y control de calidad
Al final del proceso de limpieza de datos, debería poder responder estas preguntas como parte de la validación básica:
- ¿Los datos tienen sentido?
- ¿Los datos siguen las reglas apropiadas para su campo?
- ¿Prueba o refuta su teoría de trabajo, o saca a la luz alguna idea?
- ¿Puedes encontrar tendencias en los datos que te ayuden a formar tu próxima teoría?
- Si no es así, ¿se debe a un problema de calidad de los datos?
Las conclusiones falsas debido a datos incorrectos o «sucios» pueden informar una mala estrategia comercial y toma de decisiones. Las conclusiones falsas pueden llevar a un momento embarazoso en una reunión de informes cuando te das cuenta de que tus datos no resisten el escrutinio.
Antes de llegar allí, es importante crear una cultura de datos de calidad en su organización. Para hacer esto, debe documentar las herramientas que podría usar para crear esta cultura y lo que significa la calidad de los datos para usted.
Componentes de datos de calidad
Determinar la calidad de los datos requiere un examen de sus características, luego sopesar esas características de acuerdo con lo que es más importante para su organización y las aplicaciones para las que se utilizarán.
5 características de los datos de calidad
- Validez. El grado en que sus datos se ajustan a las reglas o restricciones de negocio definidas.
- Precisión. Asegúrese de que sus datos estén cerca de los valores reales.
- Integridad. El grado en que se conocen todos los datos requeridos.
- Consistencia. Asegúrese de que sus datos sean coherentes dentro del mismo conjunto de datos y/o en varios conjuntos de datos.
- Uniformidad. El grado en que se especifican los datos utilizando la misma unidad de medida.
Beneficios de la limpieza de datos
Tener datos limpios, en última instancia, aumentará la productividad general y permitirá obtener información de la más alta calidad en la toma de decisiones. Los beneficios incluyen:
- Eliminación de errores cuando hay varias fuentes de datos en juego.
- Menos errores hacen que los clientes sean más felices y los empleados menos frustrados.
- Capacidad para mapear las diferentes funciones y lo que sus datos están destinados a hacer.
- Supervisión de errores y mejores informes para ver de dónde provienen los errores, lo que facilita la corrección de datos incorrectos o corruptos para aplicaciones futuras.
- El uso de herramientas para la limpieza de datos hará que las prácticas comerciales sean más eficientes y la toma de decisiones sea más rápida.
Las herramientas y el software de limpieza de datos para aumentar la eficiencia
El software como Tableau Prep puede ayudarlo a impulsar una cultura de datos de calidad al proporcionar formas visuales y directas de combinar y limpiar sus datos. Tableau Prep tiene dos productos: Tableau Prep Builder para crear flujos de datos y Tableau Prep Conductor para programar, supervisar y administrar flujos en toda la organización. El uso de una herramienta de depuración de datos puede ahorrarle a un administrador de bases de datos una cantidad significativa de tiempo al ayudar a los analistas o administradores a iniciar sus análisis más rápido y tener más confianza en los datos.
Comprender la calidad de los datos y las herramientas que necesita para crear, administrar y transformar los datos es un paso importante para tomar decisiones empresariales eficientes y efectivas. Este proceso crucial desarrollará aún más una cultura de datos en su organización. Para ver cómo Tableau Prep puede afectar a su organización, lea cómo la agencia de marketing Tinuiti centralizó más de 100 fuentes de datos en Tableau Prep y escaló sus análisis de marketing para 500 clientes.