Python 在機器學習 (ML) 領域的流行源於其易用性、靈活性和廣泛的庫支援。本指南提供了使用 Python 進行機器學習的基礎介紹,涵蓋了基本函式庫並示範了簡單的模型建置。
Python 在 ML 領域的主導地位歸功於以下幾個關鍵優勢:
Python 為機器學習過程的每個階段(從資料分析到模型部署)提供了全面的工具。
在開始 ML 之旅之前,請先熟悉這些重要的 Python 函式庫:
NumPy: Python 數值計算的基石。 提供對數組、矩陣和數學函數的支援。
Pandas: 一個強大的資料操作與分析函式庫。 它的 DataFrame 結構簡化了結構化資料的處理。
Scikit-learn: Python 中使用最廣泛的 ML 函式庫。 提供高效的資料探勘和分析工具,包括分類、迴歸和聚類演算法。
使用 pip 安裝必要的庫:
<code class="language-bash">pip install numpy pandas scikit-learn</code>
安裝後,您就可以開始編碼了。
讓我們使用 Iris 資料集建立一個基本的 ML 模型,該模型根據花瓣測量值對鳶尾花物種進行分類。
第 1 步:導入庫
導入所需的函式庫:
<code class="language-python">import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score</code>
第 2 步:載入資料集
使用 Scikit-learn 載入 Iris 資料集:
<code class="language-python"># Load the Iris dataset iris = load_iris() # Convert to a Pandas DataFrame data = pd.DataFrame(iris.data, columns=iris.feature_names) data['species'] = iris.target</code>
第 3 步:資料探索
分析數據:
<code class="language-python"># Display initial rows print(data.head()) # Check for missing values print(data.isnull().sum()) # Summary statistics print(data.describe())</code>
第四步:資料準備
分離特徵(X)和標籤(y),並將資料分成訓練集和測試集:
<code class="language-python"># Features (X) and labels (y) X = data.drop('species', axis=1) y = data['species'] # Train-test split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)</code>
第五步:模型訓練
訓練隨機森林分類器:
<code class="language-bash">pip install numpy pandas scikit-learn</code>
第 6 步:預測與評估
進行預測並評估模型準確度:
<code class="language-python">import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score</code>
恭喜!您已經建立了第一個 ML 模型。 為了進一步學習:
以上是Python 機器學習入門的詳細內容。更多資訊請關注PHP中文網其他相關文章!