毫無疑問,為訓練人工智慧或機器學習 (AI/ML) 收集真實資料既耗時又昂貴。而且,很多時候也充滿了風險,但更常見的問題是數據太少或有偏見的數據可能會使企業組織誤入歧途。但是,如果你可以產生新數據,也就是所謂的合成數據呢?
這聽起來不太可能,但這正是Synthesis AI計劃從468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital 和Kubera Venture Capital 等創投公司籌集的1700 萬美元的A 輪融資。
這是一個非常可靠的證據。該公司正計劃利用這這筆資金來擴大其在混合真實和合成數據領域的研發。
Synthesis AI 的執行長Yashar Behzadi 在聲明中表示:「合成數據正處於採用的拐點,我們的目標是進一步開發該技術並推動電腦視覺系統構建方式的範式變革。該產業很快就會在虛擬世界中全面設計和訓練電腦視覺模型,從而實現更先進和合乎道德的人工智慧。」
但什麼是合成資料?
合成資料是人工創建的,而不是從現實世界中收集的。目前,許多應用都專注於視覺數據,例如從電腦視覺系統收集的數據。儘管如此,沒有實際理由不能為其他用例建立合成數據,例如測試應用或改進用於檢測詐欺的演算法。它們有點像物理記錄的高度結構化的數位孿生。
透過大規模提供大量、真實的資料集,資料科學家和分析師理論上可以跳過資料收集過程,直接進入測試或訓練。
這是因為創建真實世界資料集的大部分成本不僅僅是收集原始資料。以電腦視覺和自動駕駛汽車為例,汽車製造商和研究人員可以將各種攝影機、雷達和光達感測器連接到車輛上進行收集,但原始數據對 AI/ML 演算法沒有任何意義。同樣艱鉅的挑戰是使用上下文資訊手動標記數據,以幫助系統做出更好的決策。
讓我們來看看這個挑戰的背景:想像一下,你經常開一段很短的車,所有的停車標誌、十字路口、停著的車、行人等等,然後想像一下,給每一個潛在的危險都貼上標籤是一項艱鉅的任務。
合成資料的核心優勢在於,理論上,它可以創建完美標記的資料集,其規模足以正確訓練AI/ML 應用,這意味著資料科學家可以在大量新地方突然測試他們的演算法,然後才能真正實現世界數據或在難以獲取的情況下。繼續自動駕駛汽車的例子,資料科學家可以創建合成資料來訓練汽車在惡劣條件下駕駛,例如積雪覆蓋的道路,而無需派司機向北或進入山區手動收集資料。
合成資料的核心優勢在於,從理論上講,它可以在適當訓練AI/ML應用所需的規模上創建完美標記的資料集,這意味著資料科學家可以在獲得真實資料之前,或在難以取得數據的情況下,突然在許多新的地方測試他們的演算法。還是自動駕駛汽車的例子,資料科學家可以創建合成資料來訓練汽車在不利條件下駕駛,例如白雪覆蓋的道路,而無需讓駕駛者一路向北或進入山區手動收集資料。
然而,合成資料存在先有雞還是先有蛋的問題,因為只能使用…更多資料和更多 AI/ML 演算法來創建它。從「種子」資料集開始,然後將其作為合成創作的基準,這意味著它們只會與您開始使用的資料一樣好。
(無形)利益
有哪些資料科學家或研究人員不會從看似無窮無盡的資料產生器中獲益?其核心好處-能夠避免手動收集真實世界的數據-只是合成資料可以加速AI/ML應用的方式之一。
由於分析師和數據科學家可以嚴格控制種子數據,甚至可以額外努力納入多樣性,或與外部顧問合作發現和解碼偏見,他們可以對自己提出更高的標準。例如,Synthesis AI正在開發一種監測司機狀態的系統,並仔細地將不同的面孔包含在他們的電腦生成的合成資料集中,以確保現實世界的應用適用於每個人。
隱私是另一個潛在的勝利。如果一家公司花費數百萬英里來為他們的自動駕駛汽車收集真實世界的數據,他們就會收集到許多人認為是個人隱私的大量數據——尤其是他們的臉。像谷歌和蘋果這樣的大公司已經找到了在他們的地圖軟體中避免這些類型問題的方法,但他們的路線對於想要測試他們的演算法的小型 AI/ML 團隊來說並不可行。
「企業還在努力解決與以人為本的產品中的模型偏見和消費者隱私相關的道德問題。很明顯,建立下一代電腦視覺需要一種新的範式,」該公司首席執行官兼創始人Yashar Behzadi對媒體表示。
雖然合成資料確實依賴種子才能開始,但可以對其進行調整和修改,以幫助在現實生活中難以或危險捕獲的邊緣情況下訓練 AI/ML 應用。自動駕駛汽車背後的公司希望擅長識別僅部分可見的物體或人,例如隱藏在卡車後面的停車標誌,或站在兩輛車之間的行人衝上馬路。
考慮到這些勝利,儘管有些人擔心將偏見編碼到合成數據中的先有雞還是先有蛋的問題,Gartner預測,到2024年,用於開發AI 和分析產品的數據的60% 將綜合生成。他們預測,大部分新數據將專注於在它們所基於的歷史數據失去相關性或基於過去經驗的假設失效的情況下修復預測模型。
但總是需要收集一些真實世界的數據,所以我們距離被我們通用的、公正的自我的虛擬形象完全淘汰還有很長的路要走。
以上是合成資料會推動 AI/ML 訓練的未來嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

記事本++7.3.1
好用且免費的程式碼編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),