搜尋
首頁科技週邊人工智慧AI大模型駛向產業之海,需要高數據「河道」引航

AI大模型駛向產業之海,需要高數據「河道」引航

Dec 02, 2023 am 08:45 AM
數據導航產業佈局模型驅動

在某次產業高峰會上,一位來自清華大學的院士科學家透露,我們的AI大模型是在萬卡集群上進行訓練的,每三小時就會出現一次錯誤。雖然聽起來有點可笑,但這已經達到了世界先進水平

風靡全球的AI大模型,是今年毋庸置疑的風口,數量不斷增長,達到了驚人的水平。 「百舸爭流」之下,大家卻常常會忽略一個關鍵問題:AI大模型帶來的資料激流,也比想像中更加洶湧。

“三小時出錯一次”,聽起來不可思議的故障率,卻是大模型從業者要面對的常態,甚至是“優等生”。目前業界的普遍做法,是寫容錯檢查點checkpoint。既然三小時就報錯,那就2.5小時停一次,寫好檢查點,把資料存起來,再開始訓練。一旦故障,可以從寫好的檢查點恢復,避免「從頭開始」、全部白乾。而檢查點需要儲存的資料多,會耗費大量的時間。該院士團隊基於llama 2架構研發的大模型,資料存一次硬件,就需要十個小時,儲存效率直接影響了開發進度。

如果說大規模的異質數據,是肆意奔湧的激流,儲存系統就是承載著數據流量的河道,其寬闊堅固程度直接決定了數據是否會淤塞甚至停滯,從而卡住AI大模型的生命線。可以說,整個大模型產業的生產力和效率,都被儲存規定了「上限」。

這也是為什麼,儲存作為AI資料基礎設施,受到越來越多關注。

AI大模型駛向產業之海,需要高數據「河道」引航

11月29日,「數智創新 AI未來」2023中國數據與儲存高峰會在北京舉辦。曙光儲存發布了以AI大模型為導向的儲存解決方案。

藉此機會,我們一起了解一下,AI大模型浪潮來襲,給存儲帶來的承載挑戰,以及曙光存儲是如何為智能產業引航,助推AI大模型百舸揚帆。

AI大模型正在進入產業的深水區,傳統儲存方式面臨著數據的挑戰

#最近我去了一趟雲南,發現不僅北上廣等科技重地的大模型建設如火如荼,在昆明、大理等二三線城市,甚至邊疆地區,都在積極地探索大模型行業應用。

各行各業走向智慧化,幾乎都點燃了對大模型的熾熱興趣。這時候,一個關鍵問題也顯露了出來:AI大模型的產業化風潮,需要升級儲存基礎架構。

模型開發者的每一次訓練,資料都在向儲存系統發起多種挑戰:

  1. 資料洪潮的衝擊。 隨著大模型的產業落地,許多行業都開始訓練專屬模型,大量行業數據、專有數據、新的標註數據被輸送給大模型,澎湃的數據數量對存儲系統提出了挑戰。雲南某資料科技公司提到,產業大模型要用高品質的資料集、文件、客戶私有資料訓練,每個專案都是單獨成立標註組,資料規模持續增大,儲存訴求和成本也隨之增加。

AI大模型駛向產業之海,需要高數據「河道」引航

2.資料淤塞的桎梏。 超大規模資料預處理的速度慢、耗時長,採集、歸類、搬遷等過程費時費力,一旦儲存效能跟不上,海量檔案吞吐慢、多讀少寫,檢查點Checkpoint等待耗時久,會延緩開發進度,增加開發成本。

3.資料複雜的暗湧。 此外,AI大模型要用到大量異質數據,文件格式複雜、數據集類型多樣,數據數量激增,傳統存儲難以應對數據複雜性的挑戰,容易產生消化不良的問題,造成數據訪問效率低,因而造成模型運作效率下降,訓練算力消耗增多,無法充分「壓榨」昂貴的GPU算力資源。例如雲南當地的太陽觀測站,透過讓AI科學運算模型學習海量圖片,呈現太陽真實的樣子,每天產生2TB的圖片數據,目前儲存的吞吐效率低,會導致訓練集載入慢、數據處理週期長,拖慢研究進程。

4. 資料安全的隱憂。 目前,AI大模型已經深度滲透各行業之中,在訓練開發及應用落地過程中需要海量的數據支撐,其中包含行業或個人敏感信息的數據,如果沒有合理的數據脫敏和數據託管機制,則可能造成資料洩露,對行業和個人造成損失。同時,模型安全風險也需重視,例如,外掛程式可能被植入有害內容,成為不法分子詐欺和「投毒」的工具,危及社會和產業安全。

AI大模型駛向產業之海,需要高數據「河道」引航

AI大模型駛向產業深水區,令人欣喜的是,這項技術創新正在深度融入各行各業,滿足智慧化需求,生機勃勃。然而,也存在一些擔憂,資料工程在大模型的整個生命週期中起著重要作用,包括資料收集、清理、訓練、推理部署和回饋調優等各個階段,都需要大量的資料。然而,儲存問題成為一個瓶頸,這意味著AI大模型在各個階段都可能面臨資料堵塞、故障和效率低下的情況,這將導致大模型的開發週期和綜合成本非常高,超出產業的承受能力

為了避免資料淤塞,支持和培養大型模式的產業發展,我們需要對儲存「河道」進行疏浚。曙光儲存提供了一種新的解決方案,這為我們發現了有價值的參考案例

高品質資料“航道”,曙光儲存給大模型產業一個答案

經過與AI大模型開發者的交流,我得出了一個明確的結論:建立一個適配AI大模型的全新儲存體系,已經不再需要討論,關鍵是誰能先完成方案升級、提供實用的解決方案

洞察產業的存力需求,曙光儲存打造了以ParaStor大模型專用儲存為底座的AI大模型儲存解決方案,寫下了自己的答案。

AI大模型駛向產業之海,需要高數據「河道」引航

曙光儲存AI大模型儲存集群,擁有異質融合、極致效能與原生安全三大領先能力。

首先,我們可以提供千億級的檔案儲存服務,它的擴充規模接近無限。我們也特別解決了資料存取協議多樣性的問題,同時支援文件、物件等多種儲存協議,以避免在不同儲存系統之間複製資料的情況

其次,針對AI大模型開發過程中對資料處理效率的高需求,曙光儲存AI大模型儲存叢集可提供多層快取加速、XDS資料加速及智慧高速選路等多種資料IO效能最佳化能力。

為了確保全流程資料的安全,曙光儲存節點提供了晶片級安全能力,並支援國密指令集。透過多層可靠性,它可以保證儲存叢集在訓練和開發的整個週期內穩定運行,符合政策和未來的安全趨勢

有人可能會問了,市面上的儲存方案這麼多,有的也宣傳為模型開發提供專業支援。曙光儲存的方案有哪些差異化價值?

AI大模型駛向產業之海,需要高數據「河道」引航

如果對各家的技術名詞和產品細節雲裡霧裡,大家不妨用幾個詞,記住曙光存儲AI大模型存儲集群的差異化價值:

1.先進。 異構融合,極致性能,晶片級原生安全,展現了曙光存儲的技術先進性,也針對性地解決了大模型開發的數據量大、數據形態複雜多樣、吞吐效率低、存算時間長等實實在在的痛點。

2.可靠。 高效能AI資料基礎設施基於曙光儲存的自研創新,更加可靠安全,符合信創政策和未來安全趨勢,可以幫助國內大模型服務商規避海外供應鏈風險,從供應鏈安全、資料安全、模型安全等多個角度,為大模型產業的發展護航。

3.全面。 曙光儲存打造了涵蓋從網路、運算到平台的全維度AI解決方案,支援訓練開發全週期內穩定運行,可以降低綜合成本,讓大模型開發者和產業客戶無憂前行。

總結一下,在曙光儲存建構的高品質「航道」上,大規模資料高效吞吐,AI大模型加速開發,因此,產業和企業可以快人一步,將大模型與垂直場景和業務深度融合,率先獲得通往智慧時代的船票。

第五範式的新起點,觀察著眾多企業競相前進、蓬勃發展的景象

#圖靈獎得主吉姆·格雷(Jim Gray),曾提出第四範式,核心是數據驅動。而隨著大語言模型“智能湧現”,“智能驅動”的第五範式,更側重於數據和智能的有機結合,成為支撐科學革命、產業革命的新底層邏輯。

一切過去的事情都是序章。人工智慧如此,儲存也如此

AI大模型駛向產業之海,需要高數據「河道」引航

此次大會上,憑藉20年業界深耕,與在AI儲存技術突破、液冷儲存研發等領域的領先實踐,曙光儲存公司總裁惠潤海獲評「儲存先鋒」。在其領導下,多年來曙光分散式文件儲存在市場中持續領先,市場份額名列前茅。以AI大模型為導向的資料儲存解決方案,讓曙光儲存又一次站到了時代前沿。

曙光儲存的AI大模型儲存集群,正在積極實踐範式轉換,以適應新的數據範式,透過數據基礎設施的突破,推動大模型產業化的蓬勃發展

接下來,在儲存產業的新典範、新起點,在曙光儲存的高品質資料「河道」上,我們會看到,產業大模型百舸爭流,AI應用千帆競渡,加速駛向智能中國。

以上是AI大模型駛向產業之海,需要高數據「河道」引航的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:搜狐。如有侵權,請聯絡admin@php.cn刪除
Gemma範圍:Google'用於凝視AI的顯微鏡Gemma範圍:Google'用於凝視AI的顯微鏡Apr 17, 2025 am 11:55 AM

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

誰是商業智能分析師以及如何成為一位?誰是商業智能分析師以及如何成為一位?Apr 17, 2025 am 11:44 AM

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

如何在SQL中添加列? - 分析Vidhya如何在SQL中添加列? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

業務分析師與數據分析師業務分析師與數據分析師Apr 17, 2025 am 11:38 AM

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

什麼是Excel中的Count和Counta? - 分析Vidhya什麼是Excel中的Count和Counta? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Chrome在這裡與AI:每天都有新事物!Chrome在這裡與AI:每天都有新事物!Apr 17, 2025 am 11:29 AM

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

AI的人類方面:福祉和四人底線AI的人類方面:福祉和四人底線Apr 17, 2025 am 11:28 AM

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

您應該知道的5個改變遊戲規則的量子計算用例您應該知道的5個改變遊戲規則的量子計算用例Apr 17, 2025 am 11:24 AM

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具