搜尋
首頁科技週邊人工智慧時間序列機器學習資料集的非常規拆分技術

確保機器學習模型在未知環境中泛化的一種嘗試是分割資料。這可以透過多種方式實現,從3-way(訓練、測試、評估)拆分到交叉驗證的k拆分。其基本原理是,透過在資料子集上訓練機器學習模型,並在未知資料上進行評估,可以更好地推理模型在訓練中是否存在欠擬合或過度擬合。

時間序列機器學習資料集的非常規拆分技術

對於大多數工作來說,簡單的3-way就足夠了。在現實生產中,拆分方式往往需要更複雜的方法來確保泛化問題。這些拆分更加複雜,因為它們源自於實際數據,而不是普通拆分方法所基於的資料結構。這篇文章試圖講解一些在機器學習開發中拆分資料的非常規方法,以及它們背後的原因。

讓我們從資料集開始

為了簡單起見,讓我們使用以表格格式來表示簡單多變量時間序列資料集。此資料由3個數字特徵、1個分類特徵及1個時間戳特徵組成。以下是可視化的:

時間序列機器學習資料集的非常規拆分技術

這種類型的資料集在機器學習的許多用例和行業中都很常見。一個具體的例子是從工廠車間裡面多個感測器傳輸的時間流資料。分類變數將是機器的ID,數字特徵將是感測器正在記錄的資訊(例如,壓力、溫度等),時間戳將是資料傳輸和記錄在資料庫中的時間。 

分割

假設您從資料工程部門以csv檔案的形式收到了這個資料集,並承擔編寫分類或迴歸模型的任務。在這種情況下,標籤可以是任何特徵或額外的列。要做的第一件事是將資料拆分成有意義的子集。

為方便起見,您可以簡單拆分成訓練集和測試集。馬上問題來了,資料的簡單拆分在這裡是行不通的:資料是由多個按時間索引的感測器資料流組成的。那麼,如何對資料進行拆分,從而保持順序,並使後續機器學習模型具有很好的泛化性呢?

#資料的另一種觀點

#我們可以做的最直接的轉換是表示每個分類類別的資料(在我們的運行範例中,視覺化每台機器的資料)。這將產生以下結果:

時間序列機器學習資料集的非常規拆分技術

水平拆分

分組使拆分的問題變得簡單了一些,並且很大程度上取決於你的假設。您可能會問:針對一個群組訓練的機器學習模型如何泛化到其他群組,也就是說,如果在class_1、class_2和class_3時間流上進行訓練,該模型在class_4和class_5時間流上的會如何呢?以下是這種拆分的視覺化圖:

時間序列機器學習資料集的非常規拆分技術

上面的這種拆分方式,我稱之為水平拆分。在大多數機器學習庫中,透過簡單地按分類特徵進行分組並沿著分類進行分區,可以輕鬆實現這種拆分。使用這種拆分進行訓練,該模型就已經收集到了在未知分組中泛化的資訊。

值得注意的是,拆分並沒有把時間當作拆分本身的基礎。不過,可以假設您還將按每個時間流的時間排序來拆分,以在資料中維護這種關係。這就引出了下一個拆分方式。

垂直分割

但如果你想跨越時間本身呢?對於大多數時間序列建模,拆分資料的常用方法是past和future。也就是說,將訓練集的歷史資料與評估集的資料進行比較。在這種情況下的假設是:機器學習模型如何訓練每組的歷史資料泛化到每組的未來資料?這個問題可以透過所謂的垂直分割來回答:

時間序列機器學習資料集的非常規拆分技術

這種拆分的成功訓練將表明該模型能夠在它已經看到的時間流中提取模式,並對未來的行為做出準確的預測。然而,這本身並不能表明該模型可以很好地泛化到來自不同組的其他時間流。

當然,您的多個時間流現在必須單獨排序,所以我們仍然需要分組。但這次,我們不是跨組,而是從past每個組中抽取樣本並將其放入train中,並將future組相應的放入eval 中。在這個理想化的例子中,所有時間流具有相同的長度,即每個時間流具有完全相同數量的資料點。但是,在現實世界中,情況可能並非如此——因此您需要一個系統來為每個群組建立索引以進行拆分。

混合拆分

大家可能想知道,他們是否可以產生一個模型,在水平和垂直拆分的約束下都可以很好的進行泛化呢?在這種情況下,假設將是:如何在一些組的歷史數據上訓練的機器學習模型泛化到這些組的未來數據和其他組的所有數據?這種混合拆分的可視化結果如下所示:

時間序列機器學習資料集的非常規拆分技術

當然,如果模型訓練是成功的,這個模型肯定會比其他模型在現實世界中更強壯。它不僅可以證明它已經看到的一些組的學習模式,而且還可以證明它已經獲得了跨組泛化的信息。如果我們將來要為工廠增加更多類似的機器,這可能是有用的。

多維拆分

水平和垂直拆分的概念可以推廣到許多維度。例如,可能需要根據兩個分類特徵而不是一個分類特徵進行分組,以便進一步隔離資料中的子組,並按子組對它們進行排序。中間可能還存在用於篩選樣本數量較少的群組的複雜邏輯,以及與該領域相關的其他業務級邏輯。

結論

這個假設的例子用來說明可以建立的各種機器學習分割的無限可能性。就像在評估模型時確保機器學習的公平性很重要一樣,花足夠的時間考慮劃分資料集及其對下游模型產生偏差的後果也同樣重要。

以上是時間序列機器學習資料集的非常規拆分技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境