Maison  >  Article  >  Quelles sont les étapes de base du data mining ?

Quelles sont les étapes de base du data mining ?

王林
王林original
2021-05-10 15:36:2632893parcourir

Les étapes de base de l'exploration de données sont : 1. Définir le problème ; 2. Établir une bibliothèque d'exploration de données ; 3. Analyser les données 4. Préparer les données ; modèle ; 7. Mettre en œuvre.

Quelles sont les étapes de base du data mining ?

L'environnement d'exploitation de cet article : système Windows 10, ordinateur thinkpad t480.

Les étapes spécifiques sont les suivantes :

1. Définir le problème

La première et la plus importante condition avant de commencer la découverte des connaissances est de comprendre les données et les problèmes commerciaux. Vous devez avoir une définition claire de vos objectifs, c’est-à-dire décider de ce que vous voulez faire. Par exemple, lorsque vous souhaitez améliorer le taux d'utilisation de votre courrier électronique, vous souhaiterez peut-être « augmenter le taux d'utilisation des utilisateurs » ou « augmenter la valeur d'utilisation d'un utilisateur ». Les modèles établis pour résoudre ces deux problèmes. sont presque complètement différents, une décision doit être prise.

2. Établir une bibliothèque d'exploration de données

L'établissement d'une bibliothèque d'exploration de données comprend les étapes suivantes : collecte de données, description des données, sélection, évaluation de la qualité des données et nettoyage des données, fusion et intégration, et création métadonnées, chargez la bibliothèque d'exploration de données et maintenez la bibliothèque d'exploration de données.

3. Analyser les données

Le but de l'analyse est de trouver les champs de données qui ont le plus grand impact sur la sortie de prédiction et de décider s'il convient de définir des champs d'exportation. Si l'ensemble de données contient des centaines ou des milliers de champs, la navigation et l'analyse des données seront une tâche très longue et fatigante. Dans ce cas, vous devez choisir un outil logiciel doté d'une bonne interface et de fonctions puissantes pour vous aider. accomplissant ces tâches.

4. Préparer les données

C'est la dernière étape de préparation des données avant de construire le modèle. Cette étape peut être divisée en quatre parties : sélection des variables, sélection des enregistrements, création de nouvelles variables et conversion des variables.

5. Construire un modèle

Construire un modèle est un processus itératif. Différents modèles doivent être soigneusement examinés pour déterminer celui qui est le plus utile au problème commercial rencontré. Utilisez d’abord une partie des données pour créer un modèle, puis utilisez les données restantes pour tester et valider le modèle résultant. Parfois, il existe un troisième ensemble de données, appelé ensemble de validation, car l'ensemble de test peut être affecté par les caractéristiques du modèle et un ensemble de données indépendant est nécessaire pour vérifier l'exactitude du modèle. La formation et le test des modèles d'exploration de données nécessitent de diviser les données en au moins deux parties, l'une pour la formation du modèle et l'autre pour les tests du modèle.

6. Évaluer le modèle

Une fois le modèle établi, il est nécessaire d'évaluer les résultats obtenus et d'expliquer la valeur du modèle. La précision obtenue à partir de l'ensemble de test n'est significative que pour les données utilisées pour construire le modèle. Dans les applications pratiques, il est nécessaire de mieux comprendre les types d’erreurs et les coûts associés qu’elles entraînent. L'expérience a prouvé qu'un modèle valide n'est pas nécessairement un modèle correct. La raison directe en est les diverses hypothèses implicites dans la construction du modèle. Il est donc important de tester le modèle directement dans le monde réel. Appliquez-le d'abord sur une petite zone, obtenez des données de test, puis promouvez-le sur une grande zone lorsque vous êtes satisfait.

7. Mise en œuvre

Une fois le modèle établi et vérifié, il existe deux manières principales de l'utiliser. La première consiste à fournir une référence aux analystes ; la seconde consiste à appliquer ce modèle à différents ensembles de données.

Partage de vidéos d'apprentissage gratuit : Introduction à la programmation

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn