Les méthodes de nettoyage des données comprennent : 1. La méthode de regroupement, qui consiste à placer les données à traiter dans des boîtes selon certaines règles, puis à les tester ; 2. La méthode de régression, qui consiste à utiliser les données de fonction pour dessiner ; images, puis lisser l'image ; 3. La méthode de regroupement consiste à regrouper des objets abstraits dans différents ensembles et à trouver des points isolés inattendus dans l'ensemble.
L'environnement d'exploitation de cet article : système Windows 7, ordinateur Dell G3.
Que comprend le nettoyage des données ?
Il existe trois méthodes de nettoyage des données, à savoir la méthode de regroupement, la méthode de clustering et la méthode de régression.
1. La méthode de binning
est une méthode fréquemment utilisée. La méthode dite de binning consiste à placer les données qui doivent être traitées dans des cases selon certaines règles, puis à tester chacune d'elles. données dans les cases et adoptez des méthodes pour traiter les données en fonction des conditions réelles de chaque case dans les données.
2. Méthode de régression
La méthode de régression utilise les données de la fonction pour dessiner l'image, puis lisse l'image. Il existe deux types de méthodes de régression, l’une est la régression linéaire simple et l’autre la régression multilinéaire. La régression linéaire simple consiste à trouver la meilleure ligne droite entre deux attributs, ce qui permet de prédire un attribut de l'autre. La régression multilinéaire consiste à trouver de nombreux attributs pour adapter les données à une surface multidimensionnelle, afin que le bruit puisse être éliminé.
3. Méthode de clustering
Le flux de travail de la méthode de clustering est relativement simple, mais l'opération est en effet compliquée. La méthode dite de clustering consiste à regrouper des objets abstraits en différents Ensemble de,Trouver. les points isolés inattendus dans l'ensemble, ces points isolés sont du bruit. De cette façon, vous pouvez directement trouver le bruit puis le supprimer.
Informations étendues :
Comme son nom l'indique, le nettoyage des données consiste à "laver" le "sale", qui fait référence à la découverte et correction des fichiers de données. Procédures de dernier recours pour les erreurs identifiables, y compris la vérification de la cohérence des données, le traitement des valeurs invalides et manquantes, etc.
Étant donné que les données de l'entrepôt de données sont une collection de données orientées vers un certain sujet, ces données sont extraites de plusieurs systèmes d'entreprise et contiennent des données historiques, de cette manière, il est inévitable que certaines données soient des données erronées. et certaines données sont incorrectes. Les données sont en conflit les unes avec les autres. Ces données erronées ou contradictoires sont évidemment indésirables et sont appelées « données sales ».
Nous devons « laver » les « données sales » selon certaines règles. Il s'agit du nettoyage des données. La tâche du nettoyage des données consiste à filtrer les données qui ne répondent pas aux exigences et à transmettre les résultats filtrés au service commercial en charge pour confirmer s'ils sont filtrés ou corrigés par l'unité commerciale avant l'extraction.
Les données qui ne répondent pas aux exigences se répartissent principalement en trois catégories : les données incomplètes, les données erronées et les données en double. Le nettoyage des données est différent de l'examen des questionnaires après la saisie. Il est généralement effectué par ordinateur plutôt que manuellement.
Pour plus de connaissances connexes, veuillez visiter la colonne FAQ !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!