如何在Python中使用scikit-learn機器學習庫。-Python教學-PHP中文網

首頁

後端開發

Python教學

如何在Python中使用scikit-learn機器學習庫。

PHPz

Apr 22, 2023 pm 10:31 PM

pythonscikit-learn

前言

scikit-learn是Python中最受歡迎的機器學習函式庫之一，它提供了各種各樣的機器學習演算法和工具，包括分類、迴歸、聚類、降維等。

scikit-learn的優點有：

簡單易用：scikit-learn 的介面簡單易懂，可以讓使用者輕鬆地上手進行機器學習。統一的API：scikit-learn 的 API 非常統一，各種演算法的使用方法基本上一致，使得學習和使用變得更加方便。
大量實作了機器學習演算法：scikit-learn 實作了各種經典的機器學習演算法，而且提供了豐富的工具和函數，使得演算法的偵錯和最佳化變得更加容易。
開源免費：scikit-learn 是完全開源的，而且是免費的，任何人都可以使用和修改它的程式碼。
高效穩定：scikit-learn 實現了各種高效的機器學習演算法，可以處理大規模資料集，並且在穩定性和可靠性方面表現出色。 scikit-learn因為API非常的統一而且模型相對較簡單所以非常適合入門機器學習。這裡我的推薦方式是結合官方文件進行學習，不僅有每個模型的適用範圍介紹還有程式碼範例。

線性迴歸模型-LinearRegression

LinearRegression模型是基於線性迴歸的模型，適用於解決連續變數的預測問題。此模型的基本思想是建立一個線性方程，將自變數與因變數之間的關係建模為一條直線，並利用訓練資料擬合該直線，從而求出線性方程的係數，再用此方程式對測試數據進行預測。

LinearRegression模型適用於自變數和因變數之間存在線性關係的問題，例如房價預測、銷售預測、使用者行為預測等。當然，當自變數和因變數之間的關係為非線性時，LinearRegression模型的表現會比較差。此時可採用多項式迴歸、嶺迴歸、Lasso迴歸等方法來解決。

準備資料集

在拋開其它因素影響後，學習時間和學習成績之間存在著一定的線性關係，當然這裡的學習時間指的是有效學習時間，表現為隨著學習時間的增加成績也會增加。所以我們準備一份學習時間和成績的資料集。資料集內部分資料如下：

學習時間,分數
0.5,15
0.75,23
1.0,14
1.25,42
1.5,21
1.75,28
1.75,35
2.0,51
2.25,61
2.5,49

使用LinearRegression

確定特徵和目標

在學習時間和成績間，學習時間為特徵，也即自變量；成績為標籤也即因變量，所以我們需要在準備好的學習時間和成績資料集中提取特徵和標籤。

import pandas as pd
import numpy as np
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# 读取学习时间和成绩CSV数据文件
data = pd.read_csv(&#39;data/study_time_score.csv&#39;)
# 提取数据特征学习时间
X = data[&#39;学习时间&#39;]
# 提取数据目标(标签)分数
Y = data[&#39;分数&#39;]

劃分訓練集和測試集

在特徵及標籤資料準備好以後，使用scikit-learn的LinearRegression進行訓練，將資料集劃分為訓練集和測試集。

"""
将特征数据和目标数据划分为测试集和训练集
通过test_size=0.25将百分之二十五的数据划分为测试集
"""
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0)
x_train = X_train.values.reshape(-1, 1)
model.fit(x_train, Y_train)

選擇模型，對資料進行擬合

將測試集和訓練集準備好以後,我們就可以選擇合適的模型對訓練集進行擬合，以便能夠預測出其它特徵對應的目標

# 选择模型，选择模型为LinearRegression
model = LinearRegression()
# Scikit-learn中，机器学习模型的输入必须是一个二维数组。我们需要将一维数组转换为二维数组，才能在模型中使用。
x_train = X_train.values.reshape(-1, 1)
# 进行拟合
model.fit(x_train, Y_train)

得到模型參數

由於資料集只包含學習時間和成績兩個是一個很簡單的線性模型，其背後的數學公式也即y=ax b ,其中y因變數也就是成績, x自變數也即學習時間。

"""
输出模型关键参数
Intercept: 截距 即b
Coefficients: 变量权重 即a
"""
print(&#39;Intercept:&#39;, model.intercept_)
print(&#39;Coefficients:&#39;, model.coef_)

回測

上面擬合模型只用到了測試集數據，下面我們需要使用測試集數據對模型的擬合進行一個回測，在使用訓練集擬合後，我們就可以對特徵測試集進行預測，透過得到的目標預測結果與實際目標的值進行比較，我們就可以得到模型的適配度了。

# 转换为n行1列的二维数组
x_test = X_test.values.reshape(-1, 1)
# 在测试集上进行预测并计算评分
Y_pred = model.predict(x_test)
# 打印测试特征数据
print(x_test)
# 打印特征数据对应的预测结果
print(Y_pred)
# 将预测结果与原特征数据对应的实际目标值进行比较，从而获得模型拟合度
# R2 (R-squared)：模型拟合优度，取值范围在0~1之间，越接近1表示模型越好的拟合了数据。
print("R2:", r2_score(Y_test, Y_pred))

程式執行結果
根據上述的程式碼我們需要確定LinearRegression模型的擬合度，也就是這些資料到底適合不適合使用線性模型進行擬合，程式的運行結果如下：

預測結果:
[47.43726068 33.05457106 49.83437561 63.41802692 41.8439249561 63.41802692 41.843992 .84880093 26.66226456 71.40841004 18.67188144 88.9872529
63.41802692 42.6430308 21.86803469 69.81033341 66.61418017 33.05457106
58.623797038.624197054384197058.6237970543841705438. 95418 20.26995807 77.80071653
28.26034119 13.87765157 61.81995029 90.58532953 77.80071. R2: 0.8935675710322939

以上是如何在Python中使用scikit-learn機器學習庫。的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：亿速云。如有侵權，請聯絡admin@php.cn刪除

您如何切成python陣列？May 01, 2025 am 12:18 AM

Python列表切片的基本語法是list[start:stop:step]。 1.start是包含的第一個元素索引，2.stop是排除的第一個元素索引，3.step決定元素之間的步長。切片不僅用於提取數據，還可以修改和反轉列表。

在什麼情況下，列表的表現比數組表現更好？May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin：1）DynamicsizicsizingandFrequentInsertions/刪除，2）儲存的二聚體和3）MemoryFeliceFiceForceforseforsparsedata，butmayhaveslightperformancecostsinclentoperations。

如何將Python數組轉換為Python列表？May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist，usEthelist（）constructororageneratorexpression.1）intimpthearraymoduleandcreateanArray.2）USELIST（ARR）或[XFORXINARR] to ConconverTittoalist，請考慮performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

當Python中存在列表時，使用數組的目的是什麼？May 01, 2025 am 12:04 AM

choosearraysoverlistsinpythonforbetterperformanceandmemoryfliceSpecificScenarios.1）largenumericaldatasets：arraysreducememoryusage.2）績效 - 臨界雜貨：arraysoffersoffersOffersOffersOffersPoostSfoostSforsssfortasssfortaskslikeappensearch orearch.3）testessenforcety：arraysenforce：arraysenforc