首頁  >  文章  >  科技週邊  >  合成數據:機器學習的未來

合成數據:機器學習的未來

WBOY
WBOY轉載
2023-04-08 20:41:011684瀏覽

譯者 | 布加迪

審校 | 孫淑娟

#資料可謂是機器學習模式的命脈。但是當這種寶貴資源的存取受到限制時會發生什麼?正如許多專案和公司開始展現的那樣,這時候合成資料就算不是一種出色的選擇,也是可行的選擇。

合成數據:機器學習的未來

什麼是合成資料?

合成資料是人工生成的訊息,不是透過直接測量獲得。 「假」數據本質上不是新的概念或革命性的概念。它實際上是為缺少正常運作所需的可用或必要資訊的模型產生測試或訓練資料的一種方法。

過去,缺少資料導致了使用隨機產生的一組資料點的便捷方法。儘管這對於教學和測試用途可能已經足夠了,但隨機數據不是您想要拿來訓練任何類型的預測模型的數據。這就是合成資料概念的不同之處,它很可靠。

合成資料本質上是一種獨特的概念,即我們可以巧妙地產生隨機化資料。因此,這種方法可以應用於更複雜的用例,而不僅僅是測試。

如何產生合成資料?

雖然產生合成資料的方式與隨機資料沒什麼不同——只是透過更複雜的輸入集,但合成資料確實有不同的目的,因此有獨特的要求。

合成方法是基於並且僅限於預先作為輸入而饋入的某些標準。實際上,它不是隨機的。它基於一組具有特定分佈和標準的樣本數據,這些標準決定了數據點的可能範圍、分佈和頻率。大致上說來,目的是複製真實資料以填充更大的資料集,然後該資料集將足夠龐大,以便訓練機器學習模型。

在探索用於提煉合成資料的深度學習方法時,這種方法變得特別令人關注。演算法可以相互競爭,目的是在生成和識別合成數據的能力方面相互超越。實際上,這裡的目的是搞一場人工軍備競賽,產生超現實的數據。

為什麼需要合成資料?

如果我們無法收集推進文明所需的寶貴資源,就會找到創造寶貴資源的方法。這個原則現在同樣適用於機器學習和人工智慧的資料領域。

在訓練演算法時,擁有非常大的資料樣本量至關重要,否則演算法識別的模式有可能對於實際應用來說過於簡單。這實際上非常合乎邏輯。正如人類智慧往往採取最容易的途徑來解決問題,訓練機器學習和人工智慧時也經常發生同樣的情況。

比如說,不妨將此運用於物件辨識演算法,該演算法可以從一組貓圖像中準確識別狗。如果資料量太少,AI就有可能依賴不是它試圖辨識的物件的基本特徵的模式。在這種情況下,AI可能仍然有效,但是遇到不遵循最初識別的模式的數據時,就會失效。

合成資料如何用於訓練AI?

那麼,解決辦法是什麼?我們畫了很多略有不同的動物,迫使網路找到圖像的底層結構,而不僅僅是某些像素的位置。但不是手工繪製一百萬隻狗,最好建立一個系統,專門用於繪製狗,可用於訓練分類演算法——這實際上是我們在提供合成資料以便訓練機器學習時所做的事情。

然而,這種方法有明顯的缺陷。僅憑空生成資料代表不了真實世界,因此會導致演算法在遇到真實資料時很可能無法運作。解決方案是收集數據子集,分析和識別其中的趨勢和範圍,然後使用這些數據產生大量隨機數據,這些數據很可能代表我們自行收集所有數據後數據的樣子。

這也是合成資料的價值所在。我們再也不必無休止地收集數據,然後在使用之前需要清理和處理這些數據。

合成資料為何能解決日益受到關注的資料隱私問題?

全世界目前正經歷一場非常劇烈的轉變,尤其是在歐盟:隱私和所產生的資料越來越受到保護。在機器學習和AI領域,加強資料保護是老大難問題。受限的數據常常正是訓練演算法為最終用戶執行和提供價值所需的數據,尤其是對於B2C解決方案而言。

個人決定使用解決方案並因此批准使用他們的資料時,隱私問題通常會得到解決。這裡的問題是,在您擁有提供足夠價值的解決方案、因而願意交出個人資料之前,很難讓用戶向您提供其個人資料。因此,供應商常常會陷入先有雞還是先有蛋的困境。

合成資料就是解決方案,公司可以透過早期採用者獲得資料子集。之後,它們可以使用這些資訊作為基礎,以便產生足夠的資料來訓練機器學習和AI。這種方法可以大幅減少對私有資料的費時又費錢的需求,仍可為實際使用者開發演算法。

對於醫療保健、銀行和法律等某些行業而言,合成資料提供了一種更容易存取以前無法獲得的大量資料的方法,消除了新的和更先進的演算法通常面臨的制約因素。

合成資料能否取代真實資料?

真實資料的問題在於它不是為了訓練機器學習和AI演算法而產生的,它只是我們周圍發生的事件的副產品。如前所述,這顯然限制了收集資料的可用性和易用性,也限制了資料的參數和可能破壞結果的缺陷(異常值)的可能性。這就是為什麼可以自訂和控制的合成資料在訓練模型時更有效率。

然而,儘管非常適用於訓練場景,但合成資料將不可避免地始終依賴至少一小部分真實資料用於自身的創建。所以合成資料永遠不會取代它所依賴的初始資料。更現實地說,它將大幅減少演算法訓練所需的真實資料量,這個過程需要比測試多出一大截的資料——通常80%的資料用於訓練,另外20%的資料用於測試。

最後,如果處理得當,合成數據提供了一種更快捷、更有效的方式來獲取我們需要的數據,成本比從現實世界獲取數據的成本更低,同時減少了煩人的數據隱私問題。

原文標題:#Synthetic data: The future of machine learning#,作者:Christian Lawaetz Halvorsen

以上是合成數據:機器學習的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除