譯者 | 布加迪
審校 | 孫淑娟
#資料可謂是機器學習模式的命脈。但是當這種寶貴資源的存取受到限制時會發生什麼?正如許多專案和公司開始展現的那樣,這時候合成資料就算不是一種出色的選擇,也是可行的選擇。
什麼是合成資料?
合成資料是人工生成的訊息,不是透過直接測量獲得。 「假」數據本質上不是新的概念或革命性的概念。它實際上是為缺少正常運作所需的可用或必要資訊的模型產生測試或訓練資料的一種方法。
過去,缺少資料導致了使用隨機產生的一組資料點的便捷方法。儘管這對於教學和測試用途可能已經足夠了,但隨機數據不是您想要拿來訓練任何類型的預測模型的數據。這就是合成資料概念的不同之處,它很可靠。
合成資料本質上是一種獨特的概念,即我們可以巧妙地產生隨機化資料。因此,這種方法可以應用於更複雜的用例,而不僅僅是測試。
如何產生合成資料?
雖然產生合成資料的方式與隨機資料沒什麼不同——只是透過更複雜的輸入集,但合成資料確實有不同的目的,因此有獨特的要求。
合成方法是基於並且僅限於預先作為輸入而饋入的某些標準。實際上,它不是隨機的。它基於一組具有特定分佈和標準的樣本數據,這些標準決定了數據點的可能範圍、分佈和頻率。大致上說來,目的是複製真實資料以填充更大的資料集,然後該資料集將足夠龐大,以便訓練機器學習模型。
在探索用於提煉合成資料的深度學習方法時,這種方法變得特別令人關注。演算法可以相互競爭,目的是在生成和識別合成數據的能力方面相互超越。實際上,這裡的目的是搞一場人工軍備競賽,產生超現實的數據。
為什麼需要合成資料?
如果我們無法收集推進文明所需的寶貴資源,就會找到創造寶貴資源的方法。這個原則現在同樣適用於機器學習和人工智慧的資料領域。
在訓練演算法時,擁有非常大的資料樣本量至關重要,否則演算法識別的模式有可能對於實際應用來說過於簡單。這實際上非常合乎邏輯。正如人類智慧往往採取最容易的途徑來解決問題,訓練機器學習和人工智慧時也經常發生同樣的情況。
比如說,不妨將此運用於物件辨識演算法,該演算法可以從一組貓圖像中準確識別狗。如果資料量太少,AI就有可能依賴不是它試圖辨識的物件的基本特徵的模式。在這種情況下,AI可能仍然有效,但是遇到不遵循最初識別的模式的數據時,就會失效。
合成資料如何用於訓練AI?
那麼,解決辦法是什麼?我們畫了很多略有不同的動物,迫使網路找到圖像的底層結構,而不僅僅是某些像素的位置。但不是手工繪製一百萬隻狗,最好建立一個系統,專門用於繪製狗,可用於訓練分類演算法——這實際上是我們在提供合成資料以便訓練機器學習時所做的事情。
然而,這種方法有明顯的缺陷。僅憑空生成資料代表不了真實世界,因此會導致演算法在遇到真實資料時很可能無法運作。解決方案是收集數據子集,分析和識別其中的趨勢和範圍,然後使用這些數據產生大量隨機數據,這些數據很可能代表我們自行收集所有數據後數據的樣子。
這也是合成資料的價值所在。我們再也不必無休止地收集數據,然後在使用之前需要清理和處理這些數據。
合成資料為何能解決日益受到關注的資料隱私問題?
全世界目前正經歷一場非常劇烈的轉變,尤其是在歐盟:隱私和所產生的資料越來越受到保護。在機器學習和AI領域,加強資料保護是老大難問題。受限的數據常常正是訓練演算法為最終用戶執行和提供價值所需的數據,尤其是對於B2C解決方案而言。
個人決定使用解決方案並因此批准使用他們的資料時,隱私問題通常會得到解決。這裡的問題是,在您擁有提供足夠價值的解決方案、因而願意交出個人資料之前,很難讓用戶向您提供其個人資料。因此,供應商常常會陷入先有雞還是先有蛋的困境。
合成資料就是解決方案,公司可以透過早期採用者獲得資料子集。之後,它們可以使用這些資訊作為基礎,以便產生足夠的資料來訓練機器學習和AI。這種方法可以大幅減少對私有資料的費時又費錢的需求,仍可為實際使用者開發演算法。
對於醫療保健、銀行和法律等某些行業而言,合成資料提供了一種更容易存取以前無法獲得的大量資料的方法,消除了新的和更先進的演算法通常面臨的制約因素。
合成資料能否取代真實資料?
真實資料的問題在於它不是為了訓練機器學習和AI演算法而產生的,它只是我們周圍發生的事件的副產品。如前所述,這顯然限制了收集資料的可用性和易用性,也限制了資料的參數和可能破壞結果的缺陷(異常值)的可能性。這就是為什麼可以自訂和控制的合成資料在訓練模型時更有效率。
然而,儘管非常適用於訓練場景,但合成資料將不可避免地始終依賴至少一小部分真實資料用於自身的創建。所以合成資料永遠不會取代它所依賴的初始資料。更現實地說,它將大幅減少演算法訓練所需的真實資料量,這個過程需要比測試多出一大截的資料——通常80%的資料用於訓練,另外20%的資料用於測試。
最後,如果處理得當,合成數據提供了一種更快捷、更有效的方式來獲取我們需要的數據,成本比從現實世界獲取數據的成本更低,同時減少了煩人的數據隱私問題。
原文標題:#Synthetic data: The future of machine learning#,作者:Christian Lawaetz Halvorsen
以上是合成數據:機器學習的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

人工智能Artificial Intelligence(AI)、机器学习Machine Learning(ML)和深度学习Deep Learning(DL)通常可以互换使用。但是,它们并不完全相同。人工智能是最广泛的概念,它赋予机器模仿人类行为的能力。机器学习是将人工智能应用到系统或机器中,帮助其自我学习和不断改进。最后,深度学习使用复杂的算法和深度神经网络来重复训练特定的模型或模式。让我们看看每个术语的演变和历程,以更好地理解人工智能、机器学习和深度学习实际指的是什么。人工智能自过去 70 多

众所周知,在处理深度学习和神经网络任务时,最好使用GPU而不是CPU来处理,因为在神经网络方面,即使是一个比较低端的GPU,性能也会胜过CPU。深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体验。但问题来了,如何选购合适的GPU也是件头疼烧脑的事。怎么避免踩雷,如何做出性价比高的选择?曾经拿到过斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在华盛顿大学读博的知名评测博主Tim Dettmers就针对深度学习领域需要怎样的GPU,结合自

一. 背景介绍在字节跳动,基于深度学习的应用遍地开花,工程师关注模型效果的同时也需要关注线上服务一致性和性能,早期这通常需要算法专家和工程专家分工合作并紧密配合来完成,这种模式存在比较高的 diff 排查验证等成本。随着 PyTorch/TensorFlow 框架的流行,深度学习模型训练和在线推理完成了统一,开发者仅需要关注具体算法逻辑,调用框架的 Python API 完成训练验证过程即可,之后模型可以很方便的序列化导出,并由统一的高性能 C++ 引擎完成推理工作。提升了开发者训练到部署的体验

深度学习 (DL) 已成为计算机科学中最具影响力的领域之一,直接影响着当今人类生活和社会。与历史上所有其他技术创新一样,深度学习也被用于一些违法的行为。Deepfakes 就是这样一种深度学习应用,在过去的几年里已经进行了数百项研究,发明和优化各种使用 AI 的 Deepfake 检测,本文主要就是讨论如何对 Deepfake 进行检测。为了应对Deepfake,已经开发出了深度学习方法以及机器学习(非深度学习)方法来检测 。深度学习模型需要考虑大量参数,因此需要大量数据来训练此类模型。这正是

Part 01 概述 在实时音视频通信场景,麦克风采集用户语音的同时会采集大量环境噪声,传统降噪算法仅对平稳噪声(如电扇风声、白噪声、电路底噪等)有一定效果,对非平稳的瞬态噪声(如餐厅嘈杂噪声、地铁环境噪声、家庭厨房噪声等)降噪效果较差,严重影响用户的通话体验。针对泛家庭、办公等复杂场景中的上百种非平稳噪声问题,融合通信系统部生态赋能团队自主研发基于GRU模型的AI音频降噪技术,并通过算法和工程优化,将降噪模型尺寸从2.4MB压缩至82KB,运行内存降低约65%;计算复杂度从约186Mflop

导读深度学习已在面向自然语言处理等领域的实际业务场景中广泛落地,对它的推理性能优化成为了部署环节中重要的一环。推理性能的提升:一方面,可以充分发挥部署硬件的能力,降低用户响应时间,同时节省成本;另一方面,可以在保持响应时间不变的前提下,使用结构更为复杂的深度学习模型,进而提升业务精度指标。本文针对地址标准化服务中的深度学习模型开展了推理性能优化工作。通过高性能算子、量化、编译优化等优化手段,在精度指标不降低的前提下,AI模型的模型端到端推理速度最高可获得了4.11倍的提升。1. 模型推理性能优化

今天的主角,是一对AI界相爱相杀的老冤家:Yann LeCun和Gary Marcus在正式讲述这一次的「新仇」之前,我们先来回顾一下,两位大神的「旧恨」。LeCun与Marcus之争Facebook首席人工智能科学家和纽约大学教授,2018年图灵奖(Turing Award)得主杨立昆(Yann LeCun)在NOEMA杂志发表文章,回应此前Gary Marcus对AI与深度学习的评论。此前,Marcus在杂志Nautilus中发文,称深度学习已经「无法前进」Marcus此人,属于是看热闹的不

过去十年是深度学习的“黄金十年”,它彻底改变了人类的工作和娱乐方式,并且广泛应用到医疗、教育、产品设计等各行各业,而这一切离不开计算硬件的进步,特别是GPU的革新。 深度学习技术的成功实现取决于三大要素:第一是算法。20世纪80年代甚至更早就提出了大多数深度学习算法如深度神经网络、卷积神经网络、反向传播算法和随机梯度下降等。 第二是数据集。训练神经网络的数据集必须足够大,才能使神经网络的性能优于其他技术。直至21世纪初,诸如Pascal和ImageNet等大数据集才得以现世。 第三是硬件。只有


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6
視覺化網頁開發工具

WebStorm Mac版
好用的JavaScript開發工具