Maison >développement back-end >Tutoriel Python >Comment utiliser Python pour découvrir des modèles dans les données

Comment utiliser Python pour découvrir des modèles dans les données

王林
王林avant
2023-04-28 13:43:061922parcourir

1. Préparation

Avant de commencer, vous devez vous assurer que Python et pip ont été installés avec succès sur votre ordinateur.

(Facultatif 1) Si vous utilisez Python pour l'analyse des données, vous pouvez installer Anaconda directement, qui intègre Python et pip

(Facultatif 2) De plus, il est recommandé d'utiliser le VSCode. éditeur, qui présente de nombreux avantages

Veuillez choisir l'une des méthodes suivantes pour saisir la commande permettant d'installer les dépendances :

1 Ouvrir Cmd (Démarrer-Exécuter-CMD) dans un environnement Windows.

2. Environnement MacOS Ouvrez Terminal (commande + espace pour entrer dans le Terminal).

3. Si vous utilisez l'éditeur VSCode ou Pycharm, vous pouvez utiliser directement le Terminal en bas de l'interface.

pip install pandas
pip install numpy
pip install scipy
pip install seaborn
pip install matplotlib

# 机器学习部分
pip install scikit-learn

2 Description statistique pour découvrir des modèles

En utilisant Python pour la description statistique, vous pouvez utiliser certains construits. -dans des bibliothèques, telles que Numpy et Pandas.

Voici quelques fonctions de description statistique de base :

Moyenne (moyenne) : calcule la moyenne d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
mean = np.mean(data)
print(mean)

Le résultat de sortie est : 3,0

Médiane (médiane) : calcule la médiane d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
median = np.median(data)
print(median)

Le résultat de sortie est : 3.0

Mode (mode) : Calcule le mode d'un ensemble de données.

import scipy.stats as stats

data = [1, 2, 2, 3, 4, 4, 4, 5]
mode = stats.mode(data)
print(mode)

Le résultat de sortie est : ModeResult(mode=array([4]), count=array([3]))

Variance (variance) : Calculez la variance d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
variance = np.var(data)
print(variance)

Le résultat de sortie est : 2,0

Écart type (écart type) : calculez l'écart type d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
std_dev = np.std(data)
print(std_dev)

Le résultat de sortie est : 1.4142135623730951

Ci-dessus sont quelques fonctions de description statistique de base. Il existe d'autres fonctions qui peuvent être utilisées. Veuillez consulter les documents correspondants pour les méthodes d'utilisation spécifiques.

3. Règles d'analyse de la visualisation des données

Python dispose de nombreuses bibliothèques qui peuvent être utilisées pour la visualisation des données, dont les plus couramment utilisées sont Matplotlib et Seaborn. Voici quelques méthodes de base de visualisation des données :

Line plot (line plot) : peut être utilisé pour afficher les tendances au fil du temps ou d'une certaine variable.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.plot(x, y)
plt.show()

Nuage de points : peut être utilisé pour montrer la relation entre deux variables.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.scatter(x, y)
plt.show()

Histogramme : peut être utilisé pour montrer la distribution de données numériques.

import matplotlib.pyplot as plt

data = [1, 2, 2, 3, 4, 4, 4, 5]

plt.hist(data, bins=5)
plt.show()

Box plot (box plot) : peut être utilisé pour afficher des informations telles que la médiane, les quartiles et les valeurs aberrantes de données numériques.

import seaborn as sns

data = [1, 2, 2, 3, 4, 4, 4, 5]

sns.boxplot(data)
plt.show()

Graphique à barres : peut être utilisé pour montrer des différences ou des comparaisons entre des variables catégorielles.

import matplotlib.pyplot as plt

categories = ['A', 'B', 'C', 'D']
values = [10, 20, 30, 40]

plt.bar(categories, values)
plt.show()

Voici quelques méthodes de visualisation de données de base. Matplotlib et Seaborn fournissent des fonctions plus riches qui peuvent être utilisées pour créer des tableaux et des graphiques plus complexes.

4. Analyse de regroupement et d'agrégation pour découvrir des modèles

En Python, vous pouvez utiliser la bibliothèque pandas pour regrouper et agréger facilement des données afin de découvrir des modèles dans les données. Voici un exemple de regroupement et d'agrégation de base :

Supposons que nous ayons un ensemble de données avec la date de vente, le montant des ventes et le nom du vendeur, et que nous souhaitions connaître les ventes totales de chaque vendeur. Nous pouvons regrouper par nom de vendeur et appliquer des fonctions d'agrégation telles que somme, moyenne, etc. à chaque groupe. Voici un exemple de code :

import pandas as pd

# 创建数据集
data = {'sales_date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09', '2022-01-10'],
        'sales_amount': [100, 200, 150, 300, 250, 400, 350, 450, 500, 600],
        'sales_person': ['John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane']}

df = pd.DataFrame(data)

# 按销售员名称分组,并对每个组的销售金额求和
grouped = df.groupby('sales_person')['sales_amount'].sum()

print(grouped)

Le résultat est :

sales_person
Jane 2200
John 1800
Name : sales_amount, dtype: int64

Comme vous pouvez le voir, nous avons réussi à regrouper par nom de vendeur et à additionner les montants des ventes pour chaque groupe. De cette façon, nous pouvons connaître les ventes totales de chaque vendeur et comprendre la structure des données.

5. Analyse des algorithmes d'apprentissage automatique et découverte de modèles

Vous pouvez utiliser la bibliothèque scikit-learn pour implémenter des algorithmes d'apprentissage automatique et découvrir des modèles dans les données. Ce qui suit est un exemple de base montrant comment utiliser l'algorithme de l'arbre de décision pour classer les données et découvrir des modèles dans les données :

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 创建数据集
data = {'age': [22, 25, 47, 52, 21, 62, 41, 36, 28, 44],
        'income': [21000, 22000, 52000, 73000, 18000, 87000, 45000, 33000, 28000, 84000],
        'gender': ['M', 'F', 'F', 'M', 'M', 'M', 'F', 'M', 'F', 'M'],
        'bought': ['N', 'N', 'Y', 'Y', 'N', 'Y', 'Y', 'N', 'Y', 'Y']}

df = pd.DataFrame(data)

# 将文本数据转换成数值数据
df['gender'] = df['gender'].map({'M': 0, 'F': 1})
df['bought'] = df['bought'].map({'N': 0, 'Y': 1})

# 将数据集分成训练集和测试集
X = df[['age', 'income', 'gender']]
y = df['bought']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 创建决策树模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算模型的准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: {:.2f}%".format(accuracy*100))

Le résultat de sortie est :

Précision : 50,00 %

Comme vous pouvez le voir, nous utilisons le algorithme d'arbre de décision Les données ont été classées et la précision du modèle a été calculée sur l'ensemble de test. De cette manière, nous pouvons découvrir des modèles dans les données, tels que les facteurs qui affectent les décisions d'achat. Il convient de noter qu'il ne s'agit que d'un exemple simple. Dans les applications réelles, des algorithmes d'apprentissage automatique et des méthodes d'ingénierie de fonctionnalités appropriés doivent être sélectionnés en fonction de problèmes spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer