Maison  >  Article  >  Quelles sont les techniques de data mining ?

Quelles sont les techniques de data mining ?

青灯夜游
青灯夜游original
2021-06-10 16:07:5012000parcourir

Les technologies d'exploration de données comprennent : 1. Technologie statistique ; 2. Règles d'association ; 3. Analyse basée sur l'historique ; 5. Détection d'agrégation ; 7. Arbre de décision ; Réseau neuronal ; 9. Ensemble approximatif ; 10. Ensemble flou ; 11. Analyse de régression ; 13. Description du concept ;

Quelles sont les techniques de data mining ?

L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.

Le data mining consiste à extraire des informations et des connaissances cachées que les gens ne connaissent pas à l'avance mais qui sont potentiellement utiles à partir d'une grande quantité de données incomplètes, bruyantes, floues et aléatoires.

La tâche du data mining est de découvrir des modèles à partir d'ensembles de données. Il existe de nombreux types de modèles qui peuvent être découverts. Ils peuvent être divisés en deux catégories selon leurs fonctions : les modèles prédictifs et les modèles descriptifs.

Il existe de nombreux types de technologies d'exploration de données, et il existe différentes méthodes de classification selon différentes classifications. Ce qui suit se concentre sur certaines techniques couramment utilisées dans l'exploration de données : techniques statistiques, règles d'association, analyse basée sur l'historique, algorithmes génétiques, détection d'agrégation, analyse de connexion, arbres de décision, réseaux de neurones, ensembles approximatifs, ensembles flous, analyse de régression, analyse différentielle, Description du concept et treize autres techniques d'exploration de données couramment utilisées.

1. Technologie statistique

L'exploration de données implique de nombreux domaines et technologies scientifiques, comme la technologie statistique. L'idée principale de l'utilisation de la technologie statistique pour extraire des ensembles de données est que les méthodes statistiques supposent un modèle de distribution ou de probabilité (comme une distribution normale) pour un ensemble de données donné, puis utilisent les méthodes correspondantes pour extraire selon le modèle.

2. Règles d'association

L'association de données est un type important de connaissances découvrables qui existent dans la base de données. S'il existe une certaine régularité dans les valeurs de deux variables ou plus, on parle de corrélation. Les associations peuvent être divisées en associations simples, associations temporelles et associations causales. Le but de l'analyse de corrélation est de trouver le réseau de corrélation caché dans la base de données. Parfois, la fonction de corrélation des données dans la base de données n'est pas connue, et même si elle est connue, elle est incertaine, de sorte que les règles générées par l'analyse de corrélation sont crédibles.

3. Analyse historique MBR (Memory-based Reasoning)

Recherchez d'abord des situations similaires basées sur des connaissances empiriques, puis appliquez les informations de ces situations à l'actualité. situation Exemple. C’est l’essence même du MBR (Memory Based Reasoning). MBR recherche d'abord les voisins similaires au nouvel enregistrement, puis utilise ces voisins pour classer et valoriser les nouvelles données. L'utilisation du MBR présente trois problèmes principaux : trouver des données historiques déterministes ; décider de la manière la plus efficace de représenter les données historiques et décider de la fonction de distance, de la fonction conjointe et du nombre de voisins ;

4. Algorithmes génétiques GA (Algorithmes génétiques)

Une technologie d'optimisation basée sur la théorie de l'évolution et utilisant des méthodes de conception telles que la combinaison génétique, la variation génétique et la sélection naturelle. L'idée principale est la suivante : selon le principe de survie du plus fort, former un nouveau groupe composé des règles les plus adaptées du groupe actuel, et des descendants de ces règles. En règle générale, l'adéquation d'une règle est évaluée par sa précision de classification sur l'ensemble d'échantillons d'apprentissage.

5. Détection de cluster

Le processus de regroupement d'une collection d'objets physiques ou abstraits en plusieurs classes composées d'objets similaires est appelé clustering. Un cluster généré par clustering est un ensemble d'objets de données similaires les uns aux autres dans le même cluster et différents des objets des autres clusters. Le degré de dissemblance est calculé en fonction de la valeur d'attribut de l'objet décrit, et la distance est une méthode de mesure couramment utilisée.

6. Analyse de connexion

Analyse de liens, sa théorie de base est la théorie des graphes. L'idée de la théorie des graphes est de trouver un algorithme capable de produire de bons résultats mais pas des résultats parfaits, plutôt que de trouver un algorithme qui fournit une solution parfaite. L'analyse des connexions utilise l'idée que si des résultats imparfaits sont réalisables, alors une telle analyse est une bonne analyse. Grâce à l'analyse des connexions, certains modèles peuvent être analysés à partir du comportement de certains utilisateurs et les concepts générés peuvent en même temps être appliqués à un groupe d'utilisateurs plus large.

7. Arbre de décision

L'arbre de décision fournit un moyen d'afficher des règles telles que quelle valeur sera obtenue dans quelles conditions.

8. Réseau neuronal

Structurellement, un réseau neuronal peut être divisé en couche d'entrée, couche de sortie et couche cachée. Chaque nœud de la couche d'entrée correspond à une variable prédictive. Les nœuds de la couche de sortie correspondent aux variables cibles et il peut y avoir plusieurs nœuds. Entre la couche d'entrée et la couche de sortie se trouve la couche cachée (invisible pour les utilisateurs du réseau neuronal). Le nombre de couches cachées et le nombre de nœuds dans chaque couche déterminent la complexité du réseau neuronal.

En plus des nœuds de la couche d'entrée, chaque nœud du réseau de neurones est connecté à de nombreux nœuds devant lui (appelés nœuds d'entrée de ce nœud). Chaque connexion correspond à un poids Wxy, le). valeur de ce nœud Elle est obtenue en prenant la somme des produits des valeurs de tous ses nœuds d'entrée et les poids de connexion correspondants comme entrée d'une fonction. Nous appelons cette fonction la fonction d'activité ou la fonction de compression.

9. Ensemble brut

La théorie des ensembles bruts est basée sur l'établissement de classes d'équivalence au sein de données de formation données. Tous les échantillons de données formant une classe d'équivalence sont aveugles, c'est-à-dire que ces échantillons sont équivalents pour les attributs qui décrivent les données. Compte tenu des données réelles, il existe souvent des classes qui ne peuvent pas être distinguées par les attributs disponibles. Des ensembles approximatifs sont utilisés pour approximer ou définir grossièrement cette classe.

10. Ensemble flou

La théorie des ensembles flous introduit la logique floue dans le système de classification d'exploration de données, permettant la définition de valeurs ou de limites de domaine « floues ». La logique floue utilise des valeurs de vérité comprises entre 0,0 et 1,0 pour représenter le degré selon lequel une valeur particulière est un membre donné, plutôt que des seuils exacts pour les classes ou les ensembles. La logique floue offre la possibilité de traiter à un niveau élevé d'abstraction.

11. Analyse de régression

L'analyse de régression est divisée en régression linéaire, régression multiple et régression non linéaire. En régression linéaire, les données sont modélisées avec une ligne droite, tandis que la régression multiple est une extension de la régression linéaire impliquant plusieurs variables prédictives. La régression non linéaire consiste à ajouter des termes polynomiaux au modèle linéaire de base pour former un modèle non linéaire.

12. Analyse différentielle

Le but de l'analyse différentielle est d'essayer de trouver des anomalies dans les données, telles que les données de bruit, les données de fraude et autres données anormales, donc afin d'obtenir des informations utiles.

13. Description du concept

La description conceptuelle consiste à décrire la connotation d'un certain type d'objet et à résumer les caractéristiques pertinentes de ce type d'objet. La description de concept est divisée en description caractéristique et description différentielle. La première décrit les caractéristiques communes d'un certain type d'objets, tandis que la seconde décrit les différences entre les objets de différents types. La génération d'une description caractéristique d'une classe implique uniquement les caractéristiques communes de tous. objets dans ce type d’objet.

Pour plus de connaissances connexes, veuillez visiter la colonne FAQ !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn