Maison >Problème commun >Qu'est-ce que l'exploration de données ?
L'exploration de données fait référence au processus de recherche d'informations cachées dans de grandes quantités de données grâce à des algorithmes. L'exploration de données est généralement liée à l'informatique et utilise de nombreuses méthodes telles que les statistiques, le traitement analytique en ligne, la récupération de renseignements, l'apprentissage automatique, les systèmes experts (s'appuyant sur des règles empiriques antérieures) et la reconnaissance de formes pour atteindre l'objectif de recherche d'informations cachées dans un grand nombre de domaines. quantités de données.
L'exploration de données est un sujet brûlant dans le domaine de l'intelligence artificielle et de la recherche de bases de données. L'exploration de données fait référence à la révélation d'informations cachées et jusqu'alors inconnues d'un utilisateur. une grande quantité de données dans la base de données et des informations potentiellement précieuses.
Le data mining est un processus d'aide à la décision. Il repose principalement sur l'intelligence artificielle, l'apprentissage automatique, la reconnaissance de formes, les statistiques, les bases de données, la technologie de visualisation, etc. Il analyse les données de l'entreprise de manière hautement automatisée et fait des inférences inductives. . Découvrez leurs modèles potentiels pour aider les décideurs à ajuster les stratégies de marché, à réduire les risques et à prendre les bonnes décisions.
Le processus de découverte des connaissances comprend les trois étapes suivantes : ① préparation des données ; ② exploration des données ; ③ expression et interprétation des résultats ; Le data mining peut interagir avec les utilisateurs ou les bases de connaissances.
Objets de data mining
Le type de données peut être structuré, semi-structuré, voire hétérogène. Les méthodes de découverte des connaissances peuvent être mathématiques, non mathématiques ou inductives. Les connaissances finalement découvertes peuvent être utilisées pour la gestion de l'information, l'optimisation des requêtes, l'aide à la décision et la maintenance des données elles-mêmes. [4]
L'objet du data mining peut être n'importe quel type de source de données. Il peut s'agir d'une base de données relationnelle, qui est une source de données contenant des données structurées ; il peut également s'agir d'un entrepôt de données, de textes, de données multimédias, de données spatiales, de données de séries chronologiques et de données Web, qui sont une source de données contenant des données semi-structurées. des données structurées voire des données hétérogènes. [4]
La méthode de découverte des connaissances peut être numérique, non numérique ou inductive. Les connaissances finalement découvertes peuvent être utilisées pour la gestion de l’information, l’optimisation des requêtes, l’aide à la décision et la maintenance des données elles-mêmes.
Étapes de l'exploration de données
Avant de mettre en œuvre l'exploration de données, il est nécessaire de formuler les étapes à suivre, que faire à chaque étape et quels objectifs sont nécessaires pour atteindre Ce n'est qu'avec un bon plan que l'exploration de données peut être mise en œuvre de manière ordonnée et réussir. De nombreux éditeurs de logiciels et sociétés de conseil en exploration de données proposent des modèles de processus d'exploration de données pour guider leurs utilisateurs étape par étape dans le travail d'exploration de données. Par exemple, le 5A de SPSS et le SEMMA de SAS.
Les étapes du modèle de processus d'exploration de données comprennent principalement la définition des problèmes, l'établissement de bibliothèques d'exploration de données, l'analyse des données, la préparation des données, la création de modèles, l'évaluation des modèles et la mise en œuvre. Examinons de plus près le contenu spécifique de chaque étape :
(1) Définir le problème. La première et la plus importante exigence avant de commencer la découverte de connaissances est de comprendre les données et le problème commercial. Vous devez avoir une définition claire de vos objectifs, c’est-à-dire décider de ce que vous voulez faire. Par exemple, lorsque vous souhaitez améliorer le taux d'utilisation de votre courrier électronique, vous souhaiterez peut-être « augmenter le taux d'utilisation des utilisateurs » ou « augmenter la valeur d'utilisation d'un utilisateur ». Les modèles établis pour résoudre ces deux problèmes. sont presque complètement différents, une décision doit être prise.
(2) Établir une bibliothèque d'exploration de données. La création d'une bibliothèque d'exploration de données comprend les étapes suivantes : collecte de données, description des données, sélection, évaluation de la qualité des données et nettoyage des données, fusion et intégration, création de métadonnées, chargement de la bibliothèque d'exploration de données et maintenance de la bibliothèque d'exploration de données.
(3) Analyser les données. Le but de l'analyse est de trouver les champs de données qui ont le plus grand impact sur les résultats des prévisions et de déterminer si les champs d'exportation doivent être définis. Si l'ensemble de données contient des centaines ou des milliers de champs, la navigation et l'analyse des données seront une tâche très longue et fatigante. Dans ce cas, vous devez choisir un outil logiciel doté d'une bonne interface et de fonctions puissantes pour vous aider. accomplissant ces tâches.
(4) Préparer les données. Il s'agit de la dernière étape de préparation des données avant de construire le modèle. Cette étape peut être divisée en quatre parties : sélection des variables, sélection des enregistrements, création de nouvelles variables et conversion des variables.
(5) Construisez le modèle. Construire un modèle est un processus itératif. Différents modèles doivent être soigneusement examinés pour déterminer celui qui est le plus utile au problème commercial rencontré. Utilisez d’abord une partie des données pour créer un modèle, puis utilisez les données restantes pour tester et valider le modèle résultant. Parfois, il existe un troisième ensemble de données, appelé ensemble de validation, car l'ensemble de test peut être affecté par les caractéristiques du modèle et un ensemble de données indépendant est nécessaire pour vérifier l'exactitude du modèle. La formation et le test des modèles d'exploration de données nécessitent de diviser les données en au moins deux parties, l'une pour la formation du modèle et l'autre pour les tests du modèle.
(6) Modèle d'évaluation. Une fois le modèle établi, les résultats obtenus doivent être évalués et la valeur du modèle expliquée. La précision obtenue à partir de l'ensemble de test n'est significative que pour les données utilisées pour construire le modèle. Dans les applications pratiques, il est nécessaire de mieux comprendre les types d’erreurs et les coûts associés qu’elles entraînent. L'expérience a prouvé qu'un modèle valide n'est pas nécessairement un modèle correct. La raison directe en est les diverses hypothèses implicites dans la construction du modèle. Il est donc important de tester le modèle directement dans le monde réel. Appliquez-le d'abord sur une petite zone, obtenez des données de test, puis diffusez-le sur une grande zone une fois que vous vous sentez satisfait.
(7) Mise en œuvre. Une fois qu’un modèle est construit et validé, il peut être utilisé de deux manières principales. La première consiste à fournir une référence aux analystes ; la seconde consiste à appliquer ce modèle à différents ensembles de données.
Pour plus de connaissances connexes, veuillez visiter : Site Web PHP chinois !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!