Maison  >  Article  >  Qu’est-ce que l’exploration de données ?

Qu’est-ce que l’exploration de données ?

青灯夜游
青灯夜游original
2020-07-24 11:53:148056parcourir

Le Data Mining est le processus d'extraction d'informations inconnues mais potentiellement utiles cachées dans de grandes quantités de données. L'objectif de l'exploration de données est de construire un modèle de prise de décision pour prédire les comportements futurs sur la base des données d'actions passées.

Qu’est-ce que l’exploration de données ?

L'exploration de données fait référence au processus de recherche d'informations cachées dans de grandes quantités de données grâce à des algorithmes.

L'exploration de données est généralement liée à l'informatique et atteint les objectifs ci-dessus grâce à de nombreuses méthodes telles que les statistiques, le traitement analytique en ligne, la récupération de renseignements, l'apprentissage automatique, les systèmes experts (s'appuyant sur des règles empiriques passées) et la reconnaissance de formes.

L'exploration de données est un élément indispensable de la découverte de connaissances dans une base de données (KDD), et KDD est l'ensemble du processus de conversion des données brutes en informations utiles. Ce processus comprend une série d'étapes de conversion allant du prétraitement des données au processus. post-traitement des résultats du data mining.

Qu’est-ce que l’exploration de données ?

L'origine de l'exploration de données

Des chercheurs de différentes disciplines se sont réunis et ont commencé à développer des outils capables de gérer différents types de données. Des outils plus efficaces et évolutifs. Ces travaux s’appuient sur les méthodologies et algorithmes précédemment utilisés par les chercheurs, et culminent dans le domaine du data mining.

En particulier, l'exploration de données utilise des idées issues des domaines suivants : (1) échantillonnage, estimation et test d'hypothèses à partir de statistiques ; (2) modélisation d'algorithmes de recherche de l'intelligence artificielle, de la reconnaissance de formes et de l'apprentissage automatique. Technologie et théorie de l'apprentissage.

L'exploration de données a également rapidement adopté des idées issues d'autres domaines, notamment l'optimisation, le calcul évolutif, la théorie de l'information, le traitement du signal, la visualisation et la récupération d'informations.

Certains autres domaines jouent également un rôle de soutien important. Les systèmes de bases de données fournissent une prise en charge efficace du stockage, de l'indexation et du traitement des requêtes. Les technologies dérivées du calcul (parallèle) haute performance jouent souvent un rôle important dans le traitement d’ensembles de données massifs. Les technologies distribuées peuvent également faciliter le traitement de quantités massives de données et sont encore plus critiques lorsque les données ne peuvent pas être traitées de manière centralisée.

Qu’est-ce que l’exploration de données ?

KDD (Découverte de connaissances à partir d'une base de données)

  • Nettoyage des données

    Éliminer le bruit et données incohérentes ;

  • Intégration des données

    Plusieurs sources de données peuvent être combinées ensemble

  • Sélection des données

    Extraire les données liées aux tâches d'analyse de la base de données;

  • Transformation des données

    Transformer et unifier les données en données adaptées à l'exploration via des opérations de synthèse ou d'agrégation Formulaire

  • Exploration de données

    Étapes de base pour extraire des modèles de données à l'aide de méthodes intelligentes ;

  • Évaluation des modèles

    Identifier des modèles vraiment intéressants représentant des connaissances basées sur un certain degré d'intérêt ;

  • Représentation des connaissances

    Utiliser la technologie de visualisation et de représentation des connaissances pour fournir aux utilisateurs des connaissances extraites .

Qu’est-ce que l’exploration de données ?

Méthodologie d'exploration de données

  • Compréhension commerciale

    Comprendre les objectifs et les exigences du projet d'un point de vue commercial, puis transformer cette compréhension en enjeux opérationnels pour l'exploration de données grâce à une analyse théorique, et formuler des plans préliminaires pour atteindre les objectifs

  • Données ; compréhension

    La phase de compréhension des données commence par la collecte de données brutes, puis se familiarise avec les données, identifie les problèmes de qualité des données, explore une compréhension préliminaire des données et découvre des sous-ensembles intéressants à formuler Explorer l'hypothèse d'information

  • Préparation des données (préparation des données)

    La phase de préparation des données fait référence à l'activité de construction des informations nécessaires à l'exploration de données à partir des données non traitées dans les données brutes d'origine. . Les tâches de préparation des données peuvent être effectuées plusieurs fois sans aucun ordre prescrit. L'objectif principal de ces tâches est d'obtenir les informations requises du système source conformément aux exigences de l'analyse dimensionnelle, qui nécessite un prétraitement des données tel que la conversion, le nettoyage, la construction et l'intégration des données

  •  ;
  • Modélisation

    A ce stade, il s'agit principalement de sélectionner et d'appliquer diverses techniques de modélisation. Dans le même temps, leurs paramètres sont ajustés pour atteindre des valeurs optimales. Il existe généralement plusieurs techniques de modélisation pour le même type de problème d’exploration de données. Certaines technologies ont des exigences particulières en matière de forme de données et doivent souvent revenir à l'étape de préparation des données

  • Évaluation du modèle (évaluation)

    Avant le déploiement et la publication du modèle ; Il est nécessaire de commencer par Au niveau technique, nous jugeons l'effet du modèle et examinons chaque étape de la construction du modèle, ainsi que la praticabilité du modèle dans des scénarios commerciaux réels basés sur les objectifs commerciaux. L'objectif principal de cette étape est de déterminer s'il existe des problèmes commerciaux importants qui n'ont pas été pleinement pris en compte

  • Déploiement du modèle (déploiement)

    Une fois le modèle terminé ; terminé, il sera déterminé par l'utilisateur modèle (client). En fonction de l'historique actuel et de l'état d'avancement des objectifs, le package répond aux besoins d'utilisation du système d'entreprise.

Qu’est-ce que l’exploration de données ?

Tâches d'exploration de données

Généralement, les tâches d'exploration de données sont divisées dans les deux catégories suivantes.

  • Tâche de prédiction. Le but de ces tâches est de prédire la valeur d'un attribut spécifique en fonction de la valeur d'autres attributs. Les attributs prédits sont généralement appelés variables cibles ou variables dépendantes, et les attributs utilisés pour la prédiction sont appelés variables explicatives ou variables indépendantes.

  • Décrivez la tâche . L'objectif est de dériver des modèles (corrélations, tendances, clusters, trajectoires et anomalies) qui résument les connexions sous-jacentes dans les données. Les tâches d'exploration de données descriptives sont souvent de nature exploratoire et nécessitent souvent des techniques de post-traitement pour vérifier et interpréter les résultats.

    Qu’est-ce que l’exploration de données ?

Modélisation prédictive (modélisation prédictive) Implante la construction d'un modèle pour une variable cible d'une manière qui décrit la fonction de la variable.

Il existe deux types de tâches de modélisation prédictive : la classification, utilisée pour prédire les variables cibles discrètes ; la régression, utilisée pour prédire les variables cibles continues.

Par exemple, prédire si un internaute achètera un livre dans une librairie en ligne est une tâche de classification car la variable cible est binaire, tandis que prédire le prix futur d'une action est une tâche de régression car le prix a une évolution continue. -attributs valorisés.

Le but des deux tâches est de former un modèle pour minimiser l'erreur entre la valeur prédite et la valeur réelle de la variable cible. La modélisation prédictive peut être utilisée pour déterminer les réponses des clients aux promotions de produits, prédire les perturbations des écosystèmes terrestres ou déterminer si un patient souffre d'une maladie sur la base des résultats de tests.

L'analyse d'association est utilisée pour découvrir des modèles qui décrivent des caractéristiques fortement corrélées dans les données.

Les modèles découverts sont souvent exprimés sous la forme de règles d'implication ou de sous-ensembles de fonctionnalités. L’espace de recherche étant de taille exponentielle, l’objectif de l’analyse de corrélation est d’extraire les modèles les plus intéressants de manière efficace. Les applications de l'analyse d'association comprennent la recherche de génomes ayant des fonctions connexes, l'identification des pages Web que les utilisateurs visitent ensemble et la compréhension des liens entre les différents éléments du système climatique terrestre.

L'analyse de cluster vise à trouver des groupes d'observations étroitement liés tels que les observations appartenant à un même cluster soient plus distinctes les unes des autres que les observations appartenant à des clusters différents aussi similaires que possible. Le clustering peut être utilisé pour regrouper des clients associés, identifier les zones océaniques qui affectent de manière significative le climat de la Terre, compresser les données, etc.

Détection des anomalies La tâche de est d'identifier les observations dont les caractéristiques sont significativement différentes des autres données.

Ces observations sont appelées anomalies ou valeurs aberrantes. L’objectif des algorithmes de détection d’anomalies est de découvrir de véritables anomalies et d’éviter de qualifier par erreur des objets normaux d’anomalies. En d’autres termes, un bon détecteur d’anomalies doit avoir un taux de détection élevé et un faible taux de fausses alarmes.

Les applications de la détection des anomalies incluent la détection de fraudes, de cyberattaques, de schémas inhabituels de maladies, de perturbations des écosystèmes, etc.

Pour plus de connaissances connexes, veuillez visiter : Site Web PHP chinois !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Article précédent:Que signifient les données ?Article suivant:Que signifient les données ?