搜尋
首頁科技週邊人工智慧機器學習中必學的四種交叉驗證技術

機器學習中必學的四種交叉驗證技術

Apr 12, 2023 pm 04:31 PM
機器學習演算法數據集

介紹

考慮在資料集上建立模型,但它在看不見的資料上失敗。
我們不能簡單地將模型擬合到我們的訓練資料中,然後坐等它在真實的、看不見的資料上完美運行。

這是一個過度擬合的例子,我們的模型已經提取了訓練資料中的所有模式和雜訊。為了防止這種情況發生,我們需要一種方法來確保我們的模型已經捕獲了大多數模式並且不會拾取資料中的每一點雜訊(低偏差和低方差)。處理此問題的眾多技術之一是交叉驗證。

了解交叉驗證

假設在一個特定的資料集中,我們有 1000 筆記錄,我們train_test_split()在上面執行。假設我們有 70% 的訓練資料和 30% 的測試資料random_state = 0,這些參數導致 85% 的準確度。現在,如果我們設定random_state = 50假設準確度提高到 87%。

這表示如果我們繼續選擇不同random_state的精確度值,就會發生波動。為了防止這種情況,一種稱為交叉驗證的技術開始發揮作用。

交叉驗證的類型

留一交叉驗證(LOOCV)

機器學習中必學的四種交叉驗證技術

#在LOOCV中,我們選擇1 個數據點作為測試,剩下的所有資料都將是第一次迭代中的訓練資料。在下一次迭代中,我們將選擇下一個資料點作為測試,其餘的則作為訓練資料。我們將對整個資料集重複此操作,以便在最終迭代中選擇最後一個資料點作為測試。

通常,要計算迭代交叉驗證過程的交叉驗證 R²,您需要計算每次迭代的 R² 分數並取它們的平均值。

儘管它會導致對模型性能的可靠且無偏的估計,但它的執行計算成本很高。

2. K-fold 交叉驗證

機器學習中必學的四種交叉驗證技術

##在在 K-fold CV中,

我們將資料集拆分為k 個子集(稱為折疊),然後我們對所有子集進行訓練,但留下一個(k-1) 個子集用於評估訓練後的模型。

假設我們有 1000 筆記錄並且我們的 K=5。這個 K 值意味著我們有 5 次迭代。對於測試資料要考慮的第一次迭代的資料點數從一開始就是 1000/5=200。然後對於下一次迭代,隨後的 200 個數據點將被視為測試,依此類推。

為了計算整體準確度,我們計算每次迭代的準確度,然後取其平均值。

我們可以從這個過程中獲得的最小準確度將是所有迭代中產生的最低準確度,同樣,最大準確度將是所有迭代中產生的最高準確度。

3.分層交叉驗證

機器學習中必學的四種交叉驗證技術

#分層CV是常規k 折交叉驗證的擴展,但專門針對分類問題,其中的分割不是完全隨機的,目標類別之間的比率在每個折衷中與在完整資料集中的比率相同。

機器學習中必學的四種交叉驗證技術

假設我們有 1000 筆記錄,其中包含 600 筆是和 400 筆否。因此,在每個實驗中,它都會確保填充到訓練和測試中的隨機樣本的方式是,每個類別的至少一些實例將是存在於訓練和測試分裂中。 4.

時間序列交叉驗證

################################################################## ########在時間序列CV中有一系列測試集,每個測試集都包含一個觀察值。對應的訓練集僅包含在形成測試集的觀察值###之前發生的觀察值。 ###因此,未來的觀察不能用來建構預測。 ############預測精度是透過對測試集進行平均來計算的。此過程有時被稱為“對滾動預測原點的評估”,因為預測所基於的“原點”會及時前滾。 ######

結論

在機器學習中,我們通常不想要在訓練集上表現最好的演算法或模型。相反,我們需要一個在測試集上表現出色的模型,以及一個在給定新輸入資料時始終表現良好的模型。交叉驗證是確保我們能夠識別此類演算法或模型的關鍵步驟。

以上是機器學習中必學的四種交叉驗證技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

叫AI到雜貨店過道叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

為什麼AI驅動的超個性化是所有企業必須的為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

忘記Duolingo:Google Translate的新AI功能教授語言忘記Duolingo:Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

他們正在為AI製作TCP/IP,這就是Nanda他們正在為AI製作TCP/IP,這就是NandaApr 30, 2025 am 11:12 AM

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

提示:DeepFake檢測是一項蓬勃發展的業務提示:DeepFake檢測是一項蓬勃發展的業務Apr 30, 2025 am 11:11 AM

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

接下來的兩年在AI網絡安全方面為業務領導者接下來的兩年在AI網絡安全方面為業務領導者Apr 30, 2025 am 11:10 AM

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。