搜尋
首頁科技週邊人工智慧全球優質語言資料存量告急,不容忽視

作為人工智慧的三個要素之一,數據的作用舉足輕重。

但大家有沒有想過:假如有一天,全世界的資料都用完了那咋整?

實際上,提出這個問題的人絕對沒有精神問題,因為這一天——可能真的快來了! ! !

近日,研究員Pablo Villalobos等人一篇名為《我們會用完資料嗎?機器學習中資料集縮放的限制分析》的論文,發表在了arXiv。

他們根據先前對資料集大小趨勢的分析,預測了語言和視覺領域資料集大小的成長,估計了未來幾十年可用未標記資料總存量的發展趨勢。

他們的研究顯示:最早在2026年,高品質語言資料就將全部消耗殆盡!機器學習發展的速度也將因此而放緩。實在不容樂觀。

兩方法雙管齊下,結果不那麼樂觀

這篇論文的研究團隊由11位研究員和3位顧問組成,成員遍布世界各地,致力於縮小AI技術發展與AI策略之間的差距,並為AI安全的關鍵決策者提供建議。

全球優質語言資料存量告急,不容忽視

Chinchilla是DeepMind的研究人員提出的一種新型預測計算最佳化模型。

實際上,先前在對Chinchilla進行實驗時,就曾有研究員提出「訓練資料很快就會成為擴展大型語言模型的瓶頸」。

因此他們分析了用於自然語言處理和電腦視覺的機器學習資料集大小的增長,並使用了兩種方法進行推斷:使用歷史增長率,並為未來預測的計算預算估計計算最佳資料集大小。

在此之前,他們一直在收集有關機器學習輸入趨勢的數據,包括一些訓練數據等,也透過估計未來幾十年互聯網上可用未標記數據的總存量,來調查資料使用成長。

全球優質語言資料存量告急,不容忽視

由於歷史預測趨勢可能會受過去十年計算量異常增長的“誤導”,研究團隊還使用了Chinchilla縮放定律,來估計未來幾年的資料集大小,提升計算結果的準確性。

最終,研究人員使用一系列機率模型估計未來幾年英語語言和圖像資料的總存量,並比較了訓練資料集大小和總資料庫存的預測,結果如下圖所示。

全球優質語言資料存量告急,不容忽視

這表示資料集的成長速度將遠快於資料存量。

因此,如果當前趨勢繼續保持下去,資料存量被用光將是不可避免的。下表則顯示了預測曲線上每個交叉點的中位數耗盡年數。

全球優質語言資料存量告急,不容忽視

高品質的語言資料庫存最快可能在2026年之前就被用盡。

相較之下,低品質的語言資料和影像資料情況略好:前者將在2030年至2050年間用光,後者將在2030年至2060年之間。

在論文的最後,研究團隊給出結論:如果數據效率沒有大幅提高或新的數據來源可用,當前依賴巨大數據集不斷膨脹的機器學習模型,它的增長趨勢很可能會放緩。

網友:杞人憂天,Efficient Zero了解一下

不過在這篇文章的留言區裡,大多數網友卻認為作者杞人憂天。

Reddit上,一位名為ktpr的網友表示:

「自我監督學習有啥毛病麼?如果任務指定得好,它甚至可以組合擴展資料集大小。」

全球優質語言資料存量告急,不容忽視

#名為lostmsn的網友則更加不客氣。他直言:

「Efficient Zero都不了解一下?我認為作者已經嚴重脫離時代了。」

全球優質語言資料存量告急,不容忽視

Efficient Zero是一種能高效採樣的強化學習演算法,由清華大學的高陽博士提出。

在資料量有限的情況下,Efficient Zero一定程度上解決了強化學習的效能問題,並在演算法通用測試基準Atari Game上獲得了驗證。

全球優質語言資料存量告急,不容忽視

在這篇論文作者團隊的部落格上,就連他們自己也坦言:

「我們所有的結論都基於不切實際的假設,即當前機器學習數據使用和生產的趨勢將繼續保持下去,並且數據效率不會有重大提升。」

####################### 「一個更可靠的模型應該考慮到機器學習資料效率的提高、合成資料的使用以及其他演算法和經濟因素。」############「因此就實際情況來說,這種分析有嚴重的限制。模型的不確定性非常高。」############「不過總體而言,我們仍認為由於缺乏訓練數據,到2040年機器學習模型的擴展有大約有20%的可能性會顯著放緩。」#######

以上是全球優質語言資料存量告急,不容忽視的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。