Lorsque vous utilisez des données, la plupart des gens s’accordent à dire que vos informations et analyses ne sont aussi bonnes que les données que vous utilisez. Essentiellement, les données de déchets sont une analyse de déchets. Le nettoyage des données, également appelé nettoyage des données et nettoyage des données, est l’une des étapes les plus importantes pour votre organisation si vous souhaitez créer une culture autour de la prise de décision en matière de données de qualité.
Qu’est-ce que le nettoyage des données ?
Le nettoyage des données consiste à corriger ou à supprimer des données incorrectes, corrompues, mal formatées, dupliquées ou incomplètes dans un ensemble de données.
Lorsque vous combinez plusieurs sources de données, il existe de nombreuses possibilités de duplication ou d’étiquetage erroné des données. Si les données sont incorrectes, les résultats et les algorithmes ne sont pas fiables, même s’ils peuvent sembler corrects. Il n’existe aucun moyen absolu de prescrire les étapes exactes du processus de nettoyage des données, car les processus varient d’un ensemble de données à l’autre. Mais il est crucial d’établir un modèle pour votre processus de nettoyage des données afin que vous sachiez que vous le faites de la bonne façon à chaque fois.
Quelle est la différence entre le nettoyage des données et la transformation des données ?
Le nettoyage des données est le processus qui supprime les données qui n’appartiennent pas à votre ensemble de données. La transformation de données est le processus de conversion de données d’un format ou d’une structure en un autre. Les processus de transformation peuvent également être appelés querelles de données, ou munging de données, transformant et mappant des données d’un formulaire de données « brutes » dans un autre format pour l’entreposage et l’analyse. Cet article se concentre sur les processus de nettoyage de ces données.
Comment nettoyez-vous les données ?
Bien que les techniques utilisées pour le nettoyage des données puissent varier en fonction des types de données que votre entreprise stocke, vous pouvez suivre ces étapes de base pour définir un cadre pour votre organisation.
Étape 1: Supprimer les observations en double ou non pertinentes
Supprimez les observations indésirables de votre jeu de données, y compris les observations en double ou les observations non pertinentes. Les observations en double se produiront le plus souvent lors de la collecte des données. Lorsque vous combinez des ensembles de données provenant de plusieurs endroits, récupérez des données ou recevez des données de clients ou de plusieurs départements, il est possible de créer des données en double. Le dédoublement est l’un des domaines les plus importants à prendre en compte dans ce processus.
Les observations non pertinentes sont lorsque vous remarquez des observations qui ne correspondent pas au problème spécifique que vous essayez d’analyser. Par exemple, si vous souhaitez analyser des données concernant des clients de la génération Y, mais que votre ensemble de données inclut des générations plus anciennes, vous pouvez supprimer ces observations non pertinentes. Cela peut rendre l’analyse plus efficace et minimiser la distraction par rapport à votre cible principale, tout en créant un ensemble de données plus gérable et plus performant.
Étape 2: Correction des erreurs structurelles
Les erreurs structurelles sont lorsque vous mesurez ou transférez des données et remarquez des conventions de nommage étranges, des fautes de frappe ou une majuscule incorrecte. Ces incohérences peuvent entraîner des catégories ou des classes mal étiquetées. Par exemple, vous pouvez trouver que « S.O.” et « Sans objet” apparaissent tous les deux, mais ils doivent être analysés comme la même catégorie.
Étape 3: Filtrer les valeurs aberrantes indésirables
Souvent, il y aura des observations ponctuelles où, d’un coup d’œil, elles ne semblent pas correspondre aux données que vous analysez. Si vous avez une raison légitime de supprimer une valeur aberrante, comme une saisie incorrecte des données, cela aidera les performances des données avec lesquelles vous travaillez. Cependant, c’est parfois l’apparition d’une valeur aberrante qui prouvera une théorie sur laquelle vous travaillez.
Rappelez-vous: ce n’est pas parce qu’une valeur aberrante existe qu’elle est incorrecte. Cette étape est nécessaire pour déterminer la validité de ce nombre. Si une valeur aberrante s’avère non pertinente pour l’analyse ou est une erreur, envisagez de la supprimer.
Étape 4: Gérer les données manquantes
Vous ne pouvez pas ignorer les données manquantes car de nombreux algorithmes n’accepteront pas les valeurs manquantes. Il existe plusieurs façons de traiter les données manquantes. Ni l’un ni l’autre n’est optimal, mais les deux peuvent être considérés.
- En première option, vous pouvez supprimer des observations qui ont des valeurs manquantes, mais cela supprimera ou perdra des informations, alors soyez conscient de cela avant de les supprimer.
- En deuxième option, vous pouvez saisir les valeurs manquantes en fonction d’autres observations; encore une fois, il est possible de perdre l’intégrité des données car vous pouvez opérer à partir d’hypothèses et non d’observations réelles.
- En troisième option, vous pouvez modifier la façon dont les données sont utilisées pour naviguer efficacement dans les valeurs nulles.
Étape 4: Validation et QA
À la fin du processus de nettoyage des données, vous devriez pouvoir répondre à ces questions dans le cadre de la validation de base:
- Les données ont-elles un sens?
- Les données suivent-elles les règles appropriées pour son champ ?
- Cela prouve-t-il ou réfute-t-il votre théorie de travail, ou apporte-t-il un aperçu à la lumière?
- Pouvez-vous trouver des tendances dans les données pour vous aider à former votre prochaine théorie?
- Sinon, est-ce à cause d’un problème de qualité des données?
De fausses conclusions en raison de données incorrectes ou « sales” peuvent éclairer une mauvaise stratégie commerciale et une mauvaise prise de décision. De fausses conclusions peuvent conduire à un moment embarrassant lors d’une réunion de reporting lorsque vous réalisez que vos données ne résistent pas à un examen minutieux.
Avant d’y arriver, il est important de créer une culture de données de qualité dans votre organisation. Pour ce faire, vous devez documenter les outils que vous pourriez utiliser pour créer cette culture et ce que la qualité des données signifie pour vous.
Composantes des données de qualité
La détermination de la qualité des données nécessite un examen de ses caractéristiques, puis une pondération de ces caractéristiques en fonction de ce qui est le plus important pour votre organisation et de la ou des applications pour lesquelles elles seront utilisées.
5 caractéristiques des données de qualité
- Validité. La mesure dans laquelle vos données sont conformes aux règles ou contraintes métier définies.
- Précision. Assurez-vous que vos données sont proches des vraies valeurs.
- Exhaustivité. La mesure dans laquelle toutes les données requises sont connues.
- Cohérence. Assurez-vous que vos données sont cohérentes au sein du même ensemble de données et/ou entre plusieurs ensembles de données.
- Uniformité. Le degré auquel les données sont spécifiées en utilisant la même unité de mesure.
Avantages du nettoyage des données
Avoir des données propres augmentera en fin de compte la productivité globale et permettra d’obtenir des informations de la plus haute qualité dans votre prise de décision. Les avantages incluent:
- Suppression des erreurs lorsque plusieurs sources de données sont en jeu.
- Moins d’erreurs rendent les clients plus heureux et les employés moins frustrés.
- Possibilité de mapper les différentes fonctions et ce que vos données sont destinées à faire.
- Surveillance des erreurs et meilleur reporting pour voir d’où viennent les erreurs, ce qui facilite la correction des données incorrectes ou corrompues pour les applications futures.
- L’utilisation d’outils pour le nettoyage des données rendra les pratiques commerciales plus efficaces et accélérera la prise de décision.
Outils et logiciels de nettoyage des données pour plus d’efficacité
Des logiciels comme Tableau Prep peuvent vous aider à créer une culture de données de qualité en fournissant des moyens visuels et directs de combiner et de nettoyer vos données. Tableau Prep propose deux produits : Tableau Prep Builder pour la création de vos flux de données et Tableau Prep Conductor pour la planification, la surveillance et la gestion des flux au sein de votre organisation. L’utilisation d’un outil de nettoyage des données peut faire gagner beaucoup de temps à un administrateur de base de données en aidant les analystes ou les administrateurs à démarrer leurs analyses plus rapidement et à avoir plus confiance dans les données.
Comprendre la qualité des données et les outils dont vous avez besoin pour créer, gérer et transformer les données est une étape importante pour prendre des décisions commerciales efficientes et efficaces. Ce processus crucial développera davantage une culture des données dans votre organisation. Pour voir comment Tableau Prep peut avoir un impact sur votre organisation, découvrez comment l’agence de marketing Tinuiti a centralisé plus de 100 sources de données dans Tableau Prep et mis à l’échelle leurs analyses marketing pour 500 clients.