Heim  >  Artikel  >  Backend-Entwicklung  >  Wie man mit Python Muster in Daten erkennt

Wie man mit Python Muster in Daten erkennt

王林
王林nach vorne
2023-04-28 13:43:061802Durchsuche

1. Vorbereitung

Bevor Sie beginnen, müssen Sie sicherstellen, dass Python und pip erfolgreich auf Ihrem Computer installiert wurden.

(Optional 1) Wenn Sie Python für die Datenanalyse verwenden, können Sie Anaconda direkt installieren, das Python und Pip integriert hat

(Optional 2) Darüber hinaus wird empfohlen, den VSCode zu verwenden Editor, der viele Vorteile bietet

Bitte wählen Sie eine der folgenden Methoden, um den Befehl zum Installieren von Abhängigkeiten einzugeben:

1. Öffnen Sie Cmd (Start-Ausführen-CMD) in der Windows-Umgebung.

2. MacOS-Umgebung Öffnen Sie das Terminal (Befehl+Leertaste, um das Terminal aufzurufen).

3. Wenn Sie den VSCode-Editor oder Pycharm verwenden, können Sie direkt das Terminal am unteren Rand der Benutzeroberfläche verwenden.

pip install pandas
pip install numpy
pip install scipy
pip install seaborn
pip install matplotlib

# 机器学习部分
pip install scikit-learn

2. Mit Python können Sie einige erstellte statistische Beschreibungen verwenden -in Bibliotheken wie Numpy und Pandas.

Im Folgenden sind einige grundlegende statistische Beschreibungsfunktionen aufgeführt:

Mittelwert (Mittelwert): Berechnen Sie den Durchschnitt eines Datensatzes.

import numpy as np

data = [1, 2, 3, 4, 5]
mean = np.mean(data)
print(mean)

Das Ausgabeergebnis ist: 3,0

Median (Median): Berechnen Sie den Median eines Datensatzes.

import numpy as np

data = [1, 2, 3, 4, 5]
median = np.median(data)
print(median)

Das Ausgabeergebnis ist: 3.0

Modus (Modus): Berechnet den Modus eines Datensatzes.

import scipy.stats as stats

data = [1, 2, 2, 3, 4, 4, 4, 5]
mode = stats.mode(data)
print(mode)

Das Ausgabeergebnis ist: ModeResult(mode=array([4]), count=array([3]))

Variance (Varianz): Berechnen Sie die Varianz eines Datensatzes.

import numpy as np

data = [1, 2, 3, 4, 5]
variance = np.var(data)
print(variance)

Das Ausgabeergebnis ist: 2,0

Standardabweichung (Standardabweichung): Berechnen Sie die Standardabweichung eines Datensatzes.

import numpy as np

data = [1, 2, 3, 4, 5]
std_dev = np.std(data)
print(std_dev)

Das Ausgabeergebnis ist: 1.4142135623730951

Die oben genannten sind einige grundlegende statistische Beschreibungsfunktionen, die verwendet werden können. Bitte überprüfen Sie die entsprechenden Dokumente.

3. Regeln für die Datenvisualisierungsanalyse

Python verfügt über viele Bibliotheken, die für die Datenvisualisierung verwendet werden können. Die am häufigsten verwendeten sind Matplotlib und Seaborn. Hier sind einige grundlegende Datenvisualisierungsmethoden:

Liniendiagramm (Liniendiagramm): Kann verwendet werden, um Trends über die Zeit oder eine bestimmte Variable anzuzeigen.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.plot(x, y)
plt.show()

Streudiagramm: kann verwendet werden, um die Beziehung zwischen zwei Variablen darzustellen.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.scatter(x, y)
plt.show()

Histogramm: kann verwendet werden, um die Verteilung numerischer Daten anzuzeigen.

import matplotlib.pyplot as plt

data = [1, 2, 2, 3, 4, 4, 4, 5]

plt.hist(data, bins=5)
plt.show()

Boxplot (Boxplot): Kann zur Anzeige von Informationen wie Median, Quartilen und Ausreißern numerischer Daten verwendet werden.

import seaborn as sns

data = [1, 2, 2, 3, 4, 4, 4, 5]

sns.boxplot(data)
plt.show()

Balkendiagramm: Kann verwendet werden, um Unterschiede oder Vergleiche zwischen kategorialen Variablen anzuzeigen.

import matplotlib.pyplot as plt

categories = ['A', 'B', 'C', 'D']
values = [10, 20, 30, 40]

plt.bar(categories, values)
plt.show()

Die oben genannten sind einige grundlegende Datenvisualisierungsmethoden. Sowohl Matplotlib als auch Seaborn bieten umfangreichere Funktionen, die zum Erstellen komplexerer Diagramme und Grafiken verwendet werden können.

4. Gruppierungs- und Aggregationsanalyse zur Erkennung von Mustern

In Python können Sie die Pandas-Bibliothek verwenden, um Daten einfach zu gruppieren und zu aggregieren, um Muster in den Daten zu entdecken. Hier ist ein einfaches Beispiel für eine Gruppierung und Aggregation:

Angenommen, wir haben einen Datensatz mit Verkaufsdatum, Verkaufsmenge und Verkäufernamen und möchten den Gesamtumsatz für jeden Verkäufer wissen. Wir können nach Verkäufernamen gruppieren und auf jede Gruppe Aggregatfunktionen wie Summe, Durchschnitt usw. anwenden. Das Folgende ist ein Beispielcode:

import pandas as pd

# 创建数据集
data = {'sales_date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09', '2022-01-10'],
        'sales_amount': [100, 200, 150, 300, 250, 400, 350, 450, 500, 600],
        'sales_person': ['John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane']}

df = pd.DataFrame(data)

# 按销售员名称分组,并对每个组的销售金额求和
grouped = df.groupby('sales_person')['sales_amount'].sum()

print(grouped)

Die Ausgabe lautet:

sales_person

Jane 2200
John 1800

Name: sales_amount, dtype: int64


Wie Sie sehen können, haben wir erfolgreich nach Verkäufername und Summe gruppiert Verkaufsbeträge für jede Gruppe. Auf diese Weise können wir den Gesamtumsatz jedes Verkäufers ermitteln und das Muster der Daten verstehen.

5. Analyse von maschinellen Lernalgorithmen und Erkennung von Mustern

Sie können die scikit-learn-Bibliothek verwenden, um maschinelle Lernalgorithmen zu implementieren und Muster in Daten zu entdecken. Das Folgende ist ein einfaches Beispiel, das zeigt, wie der Entscheidungsbaumalgorithmus verwendet wird, um Daten zu klassifizieren und Muster in den Daten zu entdecken:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 创建数据集
data = {'age': [22, 25, 47, 52, 21, 62, 41, 36, 28, 44],
        'income': [21000, 22000, 52000, 73000, 18000, 87000, 45000, 33000, 28000, 84000],
        'gender': ['M', 'F', 'F', 'M', 'M', 'M', 'F', 'M', 'F', 'M'],
        'bought': ['N', 'N', 'Y', 'Y', 'N', 'Y', 'Y', 'N', 'Y', 'Y']}

df = pd.DataFrame(data)

# 将文本数据转换成数值数据
df['gender'] = df['gender'].map({'M': 0, 'F': 1})
df['bought'] = df['bought'].map({'N': 0, 'Y': 1})

# 将数据集分成训练集和测试集
X = df[['age', 'income', 'gender']]
y = df['bought']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 创建决策树模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算模型的准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: {:.2f}%".format(accuracy*100))

Das Ausgabeergebnis ist:

Genauigkeit: 50,00 %

Wie Sie sehen können, verwenden wir die Entscheidungsbaumalgorithmus Die Daten wurden klassifiziert und die Genauigkeit des Modells anhand des Testsatzes berechnet. Auf diese Weise können wir Muster in den Daten entdecken, etwa welche Faktoren Kaufentscheidungen beeinflussen. Es ist zu beachten, dass dies nur ein einfaches Beispiel ist. In tatsächlichen Anwendungen müssen geeignete Algorithmen für maschinelles Lernen und Feature-Engineering-Methoden basierend auf spezifischen Problemen ausgewählt werden.

Das obige ist der detaillierte Inhalt vonWie man mit Python Muster in Daten erkennt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen