搜尋
首頁後端開發Python教學機器學習演算法的隨機資料產生方法介紹

在學習機器學習演算法的過程中,我們經常需要資料來驗證演算法,調試參數。但是要找到一組十分合適某種特定演算法類型的資料樣本卻不那麼容易。還好numpy, scikit-learn都提供了隨機資料產生的功能,我們可以自己產生適合某一種模型的數據,用隨機資料來做清洗,歸一化,轉換,然後選擇模型與算法做擬合和預測。下面對scikit-learn和numpy產生資料樣本的方法做一個總結。

1. numpy隨機資料產生API

numpy比較適合用來生產一些簡單的抽樣資料。 API都在random類別中,常見的API有:

1) rand(d0, d1, ..., dn) 用來產生d0xd1x...dn維的陣列。陣列的值在[0,1]之間

例如:np.random.rand(3,2,2),輸出如下3x2x2的陣列

array([[[ 0.49042678,  0.60643763],
        [ 0.18370487,  0.10836908]],
        [[ 0.38269728,  0.66130293],
        [ 0.5775944 ,  0.52354981]],
        [[ 0.71705929,  0.89453574],
        [ 0.36245334,  0.37545211]]])  


#2) randn((d0, d1, ..., dn), 也是用來產生d0xd1x...dn維的陣列。不過數組的值服從N(0,1)的標準常態分配。

例如:np.random.randn(3,2),輸出如下3x2的數組,這些值是N(0,1)的抽樣資料。 ,σ2)N(μ,σ2)的常態分佈,只需要在randn上每個產生的值x上做變換σx+μσx+μ即可,例如:


例如:2*np.random.randn(3,2) + 1,輸出如下3x2的數組,這些值是N(1,4)的抽樣資料。 low[, high, size]),產生隨機的大小為size的數據,size可以為

整數

,為矩陣維數,或張量的維度。值位於半開區間 [low, high)。

例如:np.random.randint(3, size=[2,3,4])傳回維數維2x3x4的資料。取值範圍為最大值為3的整數。

array([[-0.5889483 , -0.34054626],
       [-2.03094528, -0.21205145],
       [-0.20804811, -0.97289898]])

再例如: np.random.randint(3, 6, size=[2,3]) 傳回維度為2x3的資料。取值範圍為[3,6).

array([[ 2.32910328, -0.677016  ],
       [-0.09049511,  1.04687598],
       [ 2.13493001,  3.30025852]])

4) random_integers(low[, high, size]),和上面的randint類似,區別在與取值範圍是閉區間[low, high] 。

5) random_sample([size]), 傳回隨機的浮點數,在半開區間 [0.0, 1.0)。如果是其他區間[a,b),可以轉換(b - a) * random_sample([size]) + a


#例如: (5-2)*np.random.random_sample(3)+2傳回[2,5)之間的3個隨機數。

array([[[2, 1, 2, 1],
   [0, 1, 2, 1],
   [2, 1, 0, 2]],
   [[0, 1, 0, 0],
   [1, 1, 2, 1],
   [1, 0, 1, 2]]])

2. scikit-learn隨機資料產生API介紹

scikit-learn產生隨機資料的API都在datasets類別之中,和numpy比起來,可以用來產生適合特定機器學習模型的數據。常用的API有:

1) 用make_regression 產生迴歸模型的資料

2) 用make_hastie_10_2,make_classification或make_multilabel_classification產生分類模型資料

3) 聚用make_blobs類別模型資料

4) 用make_gaussian_quantiles產生分組多維度常態分佈的資料

3. scikit-learn隨機資料產生實例

#3.1 迴歸模型隨機資料

這裡我們使用make_regression產生迴歸模型資料。幾個關鍵參數有n_samples(產生樣本數), n_features(樣本特徵數),noise(樣本隨機雜訊)和coef(是否返回迴歸係數)。範例程式碼如下:

array([[4, 5, 3],
   [3, 4, 5]])

輸出的圖如下:

3.2 分類模型隨機資料

機器學習演算法的隨機資料產生方法介紹這裡我們用make_classification產生三元分類模型資料。幾個關鍵參數有n_samples(產生樣本數), n_features(樣本特徵數), n_redundant(冗餘特徵數)和n_classes(輸出的類別數),範例程式碼如下:

array([ 2.87037573,  4.33790491,  2.1662832 ])

#輸出的圖如下:


3.3 聚類模型隨機資料

機器學習演算法的隨機資料產生方法介紹這裡我們用make_blobs產生聚類模型資料。幾個關鍵參數有n_samples(產生樣本數), n_features(樣本特徵數),centers(簇中心的個數或自訂的簇中心)和cluster_std(簇資料方差,代表簇的聚合程度)。範例如下:

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets.samples_generator import make_regression
# X为样本特征,y为样本输出, coef为回归系数,共1000个样本,每个样本1个特征
X, y, coef =make_regression(n_samples=1000, n_features=1,noise=10, coef=True)
# 画图
plt.scatter(X, y,  color='black')
plt.plot(X, X*coef, color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()

輸出的圖如下:


3.4 分组正态分布混合数据

我们用make_gaussian_quantiles生成分组多维正态分布的数据。几个关键参数有n_samples(生成样本数), n_features(正态分布的维数),mean(特征均值), cov(样本协方差的系数), n_classes(数据在正态分布中按分位数分配的组数)。 例子如下:

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets import make_gaussian_quantiles
#生成2维正态分布,生成的数据按分位数分成3组,1000个样本,2个样本特征均值为1和2,协方差系数为2
X1, Y1 = make_gaussian_quantiles(n_samples=1000, n_features=2, n_classes=3, mean=[1,2],cov=2)
plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1)


输出图如下

機器學習演算法的隨機資料產生方法介紹

以上就是生产随机数据的一个总结,希望可以帮到学习机器学习算法的朋友们。

以上是機器學習演算法的隨機資料產生方法介紹的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用Python查找文本文件的ZIPF分佈如何使用Python查找文本文件的ZIPF分佈Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python處理Zipf定律這一統計概念,並展示Python在處理該定律時讀取和排序大型文本文件的效率。 您可能想知道Zipf分佈這個術語是什麼意思。要理解這個術語,我們首先需要定義Zipf定律。別擔心,我會盡量簡化說明。 Zipf定律 Zipf定律簡單來說就是:在一個大型自然語言語料庫中,最頻繁出現的詞的出現頻率大約是第二頻繁詞的兩倍,是第三頻繁詞的三倍,是第四頻繁詞的四倍,以此類推。 讓我們來看一個例子。如果您查看美國英語的Brown語料庫,您會注意到最頻繁出現的詞是“th

我如何使用美麗的湯來解析HTML?我如何使用美麗的湯來解析HTML?Mar 10, 2025 pm 06:54 PM

本文解釋瞭如何使用美麗的湯庫來解析html。 它詳細介紹了常見方法,例如find(),find_all(),select()和get_text(),以用於數據提取,處理不同的HTML結構和錯誤以及替代方案(SEL)

python中的圖像過濾python中的圖像過濾Mar 03, 2025 am 09:44 AM

處理嘈雜的圖像是一個常見的問題,尤其是手機或低分辨率攝像頭照片。 本教程使用OpenCV探索Python中的圖像過濾技術來解決此問題。 圖像過濾:功能強大的工具圖像過濾器

如何使用Python使用PDF文檔如何使用Python使用PDF文檔Mar 02, 2025 am 09:54 AM

PDF 文件因其跨平台兼容性而廣受歡迎,內容和佈局在不同操作系統、閱讀設備和軟件上保持一致。然而,與 Python 處理純文本文件不同,PDF 文件是二進製文件,結構更複雜,包含字體、顏色和圖像等元素。 幸運的是,借助 Python 的外部模塊,處理 PDF 文件並非難事。本文將使用 PyPDF2 模塊演示如何打開 PDF 文件、打印頁面和提取文本。關於 PDF 文件的創建和編輯,請參考我的另一篇教程。 準備工作 核心在於使用外部模塊 PyPDF2。首先,使用 pip 安裝它: pip 是 P

如何在django應用程序中使用redis緩存如何在django應用程序中使用redis緩存Mar 02, 2025 am 10:10 AM

本教程演示瞭如何利用Redis緩存以提高Python應用程序的性能,特別是在Django框架內。 我們將介紹REDIS安裝,Django配置和性能比較,以突出顯示BENE

如何使用TensorFlow或Pytorch進行深度學習?如何使用TensorFlow或Pytorch進行深度學習?Mar 10, 2025 pm 06:52 PM

本文比較了Tensorflow和Pytorch的深度學習。 它詳細介紹了所涉及的步驟:數據準備,模型構建,培訓,評估和部署。 框架之間的關鍵差異,特別是關於計算刻度的

Python中的平行和並發編程簡介Python中的平行和並發編程簡介Mar 03, 2025 am 10:32 AM

Python是數據科學和處理的最愛,為高性能計算提供了豐富的生態系統。但是,Python中的並行編程提出了獨特的挑戰。本教程探討了這些挑戰,重點是全球解釋

如何在Python中實現自己的數據結構如何在Python中實現自己的數據結構Mar 03, 2025 am 09:28 AM

本教程演示了在Python 3中創建自定義管道數據結構,利用類和操作員超載以增強功能。 管道的靈活性在於它能夠將一系列函數應用於數據集的能力,GE

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境