譯者 | 布加迪
審校 | 孫淑娟
#資料可謂是機器學習模式的命脈。但是當這種寶貴資源的存取受到限制時會發生什麼?正如許多專案和公司開始展現的那樣,這時候合成資料就算不是一種出色的選擇,也是可行的選擇。
什麼是合成資料?
合成資料是人工生成的訊息,不是透過直接測量獲得。 「假」數據本質上不是新的概念或革命性的概念。它實際上是為缺少正常運作所需的可用或必要資訊的模型產生測試或訓練資料的一種方法。
過去,缺少資料導致了使用隨機產生的一組資料點的便捷方法。儘管這對於教學和測試用途可能已經足夠了,但隨機數據不是您想要拿來訓練任何類型的預測模型的數據。這就是合成資料概念的不同之處,它很可靠。
合成資料本質上是一種獨特的概念,即我們可以巧妙地產生隨機化資料。因此,這種方法可以應用於更複雜的用例,而不僅僅是測試。
如何產生合成資料?
雖然產生合成資料的方式與隨機資料沒什麼不同——只是透過更複雜的輸入集,但合成資料確實有不同的目的,因此有獨特的要求。
合成方法是基於並且僅限於預先作為輸入而饋入的某些標準。實際上,它不是隨機的。它基於一組具有特定分佈和標準的樣本數據,這些標準決定了數據點的可能範圍、分佈和頻率。大致上說來,目的是複製真實資料以填充更大的資料集,然後該資料集將足夠龐大,以便訓練機器學習模型。
在探索用於提煉合成資料的深度學習方法時,這種方法變得特別令人關注。演算法可以相互競爭,目的是在生成和識別合成數據的能力方面相互超越。實際上,這裡的目的是搞一場人工軍備競賽,產生超現實的數據。
為什麼需要合成資料?
如果我們無法收集推進文明所需的寶貴資源,就會找到創造寶貴資源的方法。這個原則現在同樣適用於機器學習和人工智慧的資料領域。
在訓練演算法時,擁有非常大的資料樣本量至關重要,否則演算法識別的模式有可能對於實際應用來說過於簡單。這實際上非常合乎邏輯。正如人類智慧往往採取最容易的途徑來解決問題,訓練機器學習和人工智慧時也經常發生同樣的情況。
比如說,不妨將此運用於物件辨識演算法,該演算法可以從一組貓圖像中準確識別狗。如果資料量太少,AI就有可能依賴不是它試圖辨識的物件的基本特徵的模式。在這種情況下,AI可能仍然有效,但是遇到不遵循最初識別的模式的數據時,就會失效。
合成資料如何用於訓練AI?
那麼,解決辦法是什麼?我們畫了很多略有不同的動物,迫使網路找到圖像的底層結構,而不僅僅是某些像素的位置。但不是手工繪製一百萬隻狗,最好建立一個系統,專門用於繪製狗,可用於訓練分類演算法——這實際上是我們在提供合成資料以便訓練機器學習時所做的事情。
然而,這種方法有明顯的缺陷。僅憑空生成資料代表不了真實世界,因此會導致演算法在遇到真實資料時很可能無法運作。解決方案是收集數據子集,分析和識別其中的趨勢和範圍,然後使用這些數據產生大量隨機數據,這些數據很可能代表我們自行收集所有數據後數據的樣子。
這也是合成資料的價值所在。我們再也不必無休止地收集數據,然後在使用之前需要清理和處理這些數據。
合成資料為何能解決日益受到關注的資料隱私問題?
全世界目前正經歷一場非常劇烈的轉變,尤其是在歐盟:隱私和所產生的資料越來越受到保護。在機器學習和AI領域,加強資料保護是老大難問題。受限的數據常常正是訓練演算法為最終用戶執行和提供價值所需的數據,尤其是對於B2C解決方案而言。
個人決定使用解決方案並因此批准使用他們的資料時,隱私問題通常會得到解決。這裡的問題是,在您擁有提供足夠價值的解決方案、因而願意交出個人資料之前,很難讓用戶向您提供其個人資料。因此,供應商常常會陷入先有雞還是先有蛋的困境。
合成資料就是解決方案,公司可以透過早期採用者獲得資料子集。之後,它們可以使用這些資訊作為基礎,以便產生足夠的資料來訓練機器學習和AI。這種方法可以大幅減少對私有資料的費時又費錢的需求,仍可為實際使用者開發演算法。
對於醫療保健、銀行和法律等某些行業而言,合成資料提供了一種更容易存取以前無法獲得的大量資料的方法,消除了新的和更先進的演算法通常面臨的制約因素。
合成資料能否取代真實資料?
真實資料的問題在於它不是為了訓練機器學習和AI演算法而產生的,它只是我們周圍發生的事件的副產品。如前所述,這顯然限制了收集資料的可用性和易用性,也限制了資料的參數和可能破壞結果的缺陷(異常值)的可能性。這就是為什麼可以自訂和控制的合成資料在訓練模型時更有效率。
然而,儘管非常適用於訓練場景,但合成資料將不可避免地始終依賴至少一小部分真實資料用於自身的創建。所以合成資料永遠不會取代它所依賴的初始資料。更現實地說,它將大幅減少演算法訓練所需的真實資料量,這個過程需要比測試多出一大截的資料——通常80%的資料用於訓練,另外20%的資料用於測試。
最後,如果處理得當,合成數據提供了一種更快捷、更有效的方式來獲取我們需要的數據,成本比從現實世界獲取數據的成本更低,同時減少了煩人的數據隱私問題。
原文標題:#Synthetic data: The future of machine learning#,作者:Christian Lawaetz Halvorsen
以上是合成數據:機器學習的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版
SublimeText3 Linux最新版

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。