AI大模型駛向產業之海，需要高數據「河道」引航-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

AI大模型駛向產業之海，需要高數據「河道」引航

PHPz

Dec 02, 2023 am 08:45 AM

數據導航產業佈局模型驅動

在某次產業高峰會上，一位來自清華大學的院士科學家透露，我們的AI大模型是在萬卡集群上進行訓練的，每三小時就會出現一次錯誤。雖然聽起來有點可笑，但這已經達到了世界先進水平

風靡全球的AI大模型，是今年毋庸置疑的風口，數量不斷增長，達到了驚人的水平。「百舸爭流」之下，大家卻常常會忽略一個關鍵問題：AI大模型帶來的資料激流，也比想像中更加洶湧。

“三小時出錯一次”，聽起來不可思議的故障率，卻是大模型從業者要面對的常態，甚至是“優等生”。目前業界的普遍做法，是寫容錯檢查點checkpoint。既然三小時就報錯，那就2.5小時停一次，寫好檢查點，把資料存起來，再開始訓練。一旦故障，可以從寫好的檢查點恢復，避免「從頭開始」、全部白乾。而檢查點需要儲存的資料多，會耗費大量的時間。該院士團隊基於llama 2架構研發的大模型，資料存一次硬件，就需要十個小時，儲存效率直接影響了開發進度。

如果說大規模的異質數據，是肆意奔湧的激流，儲存系統就是承載著數據流量的河道，其寬闊堅固程度直接決定了數據是否會淤塞甚至停滯，從而卡住AI大模型的生命線。可以說，整個大模型產業的生產力和效率，都被儲存規定了「上限」。

這也是為什麼，儲存作為AI資料基礎設施，受到越來越多關注。

AI大模型駛向產業之海，需要高數據「河道」引航

11月29日，「數智創新 AI未來」2023中國數據與儲存高峰會在北京舉辦。曙光儲存發布了以AI大模型為導向的儲存解決方案。

藉此機會，我們一起了解一下，AI大模型浪潮來襲，給存儲帶來的承載挑戰，以及曙光存儲是如何為智能產業引航，助推AI大模型百舸揚帆。

AI大模型正在進入產業的深水區，傳統儲存方式面臨著數據的挑戰

#最近我去了一趟雲南，發現不僅北上廣等科技重地的大模型建設如火如荼，在昆明、大理等二三線城市，甚至邊疆地區，都在積極地探索大模型行業應用。

各行各業走向智慧化，幾乎都點燃了對大模型的熾熱興趣。這時候，一個關鍵問題也顯露了出來：AI大模型的產業化風潮，需要升級儲存基礎架構。

模型開發者的每一次訓練，資料都在向儲存系統發起多種挑戰：

資料洪潮的衝擊。 隨著大模型的產業落地，許多行業都開始訓練專屬模型，大量行業數據、專有數據、新的標註數據被輸送給大模型，澎湃的數據數量對存儲系統提出了挑戰。雲南某資料科技公司提到，產業大模型要用高品質的資料集、文件、客戶私有資料訓練，每個專案都是單獨成立標註組，資料規模持續增大，儲存訴求和成本也隨之增加。

AI大模型駛向產業之海，需要高數據「河道」引航

2.資料淤塞的桎梏。 超大規模資料預處理的速度慢、耗時長，採集、歸類、搬遷等過程費時費力，一旦儲存效能跟不上，海量檔案吞吐慢、多讀少寫，檢查點Checkpoint等待耗時久，會延緩開發進度，增加開發成本。

3.資料複雜的暗湧。 此外，AI大模型要用到大量異質數據，文件格式複雜、數據集類型多樣，數據數量激增，傳統存儲難以應對數據複雜性的挑戰，容易產生消化不良的問題，造成數據訪問效率低，因而造成模型運作效率下降，訓練算力消耗增多，無法充分「壓榨」昂貴的GPU算力資源。例如雲南當地的太陽觀測站，透過讓AI科學運算模型學習海量圖片，呈現太陽真實的樣子，每天產生2TB的圖片數據，目前儲存的吞吐效率低，會導致訓練集載入慢、數據處理週期長，拖慢研究進程。

4. 資料安全的隱憂。 目前，AI大模型已經深度滲透各行業之中，在訓練開發及應用落地過程中需要海量的數據支撐，其中包含行業或個人敏感信息的數據，如果沒有合理的數據脫敏和數據託管機制，則可能造成資料洩露，對行業和個人造成損失。同時，模型安全風險也需重視，例如，外掛程式可能被植入有害內容，成為不法分子詐欺和「投毒」的工具，危及社會和產業安全。

AI大模型駛向產業之海，需要高數據「河道」引航

AI大模型駛向產業深水區，令人欣喜的是，這項技術創新正在深度融入各行各業，滿足智慧化需求，生機勃勃。然而，也存在一些擔憂，資料工程在大模型的整個生命週期中起著重要作用，包括資料收集、清理、訓練、推理部署和回饋調優等各個階段，都需要大量的資料。然而，儲存問題成為一個瓶頸，這意味著AI大模型在各個階段都可能面臨資料堵塞、故障和效率低下的情況，這將導致大模型的開發週期和綜合成本非常高，超出產業的承受能力

為了避免資料淤塞，支持和培養大型模式的產業發展，我們需要對儲存「河道」進行疏浚。曙光儲存提供了一種新的解決方案，這為我們發現了有價值的參考案例

高品質資料“航道”，曙光儲存給大模型產業一個答案

經過與AI大模型開發者的交流，我得出了一個明確的結論：建立一個適配AI大模型的全新儲存體系，已經不再需要討論，關鍵是誰能先完成方案升級、提供實用的解決方案

洞察產業的存力需求，曙光儲存打造了以ParaStor大模型專用儲存為底座的AI大模型儲存解決方案，寫下了自己的答案。

AI大模型駛向產業之海，需要高數據「河道」引航

曙光儲存AI大模型儲存集群，擁有異質融合、極致效能與原生安全三大領先能力。

首先，我們可以提供千億級的檔案儲存服務，它的擴充規模接近無限。我們也特別解決了資料存取協議多樣性的問題，同時支援文件、物件等多種儲存協議，以避免在不同儲存系統之間複製資料的情況

其次，針對AI大模型開發過程中對資料處理效率的高需求，曙光儲存AI大模型儲存叢集可提供多層快取加速、XDS資料加速及智慧高速選路等多種資料IO效能最佳化能力。

為了確保全流程資料的安全，曙光儲存節點提供了晶片級安全能力，並支援國密指令集。透過多層可靠性，它可以保證儲存叢集在訓練和開發的整個週期內穩定運行，符合政策和未來的安全趨勢

有人可能會問了，市面上的儲存方案這麼多，有的也宣傳為模型開發提供專業支援。曙光儲存的方案有哪些差異化價值？

AI大模型駛向產業之海，需要高數據「河道」引航

如果對各家的技術名詞和產品細節雲裡霧裡，大家不妨用幾個詞，記住曙光存儲AI大模型存儲集群的差異化價值：

1.先進。 異構融合，極致性能，晶片級原生安全，展現了曙光存儲的技術先進性，也針對性地解決了大模型開發的數據量大、數據形態複雜多樣、吞吐效率低、存算時間長等實實在在的痛點。

2.可靠。 高效能AI資料基礎設施基於曙光儲存的自研創新，更加可靠安全，符合信創政策和未來安全趨勢，可以幫助國內大模型服務商規避海外供應鏈風險，從供應鏈安全、資料安全、模型安全等多個角度，為大模型產業的發展護航。

3.全面。 曙光儲存打造了涵蓋從網路、運算到平台的全維度AI解決方案，支援訓練開發全週期內穩定運行，可以降低綜合成本，讓大模型開發者和產業客戶無憂前行。

總結一下，在曙光儲存建構的高品質「航道」上，大規模資料高效吞吐，AI大模型加速開發，因此，產業和企業可以快人一步，將大模型與垂直場景和業務深度融合，率先獲得通往智慧時代的船票。

第五範式的新起點，觀察著眾多企業競相前進、蓬勃發展的景象

#圖靈獎得主吉姆·格雷（Jim Gray），曾提出第四範式，核心是數據驅動。而隨著大語言模型“智能湧現”，“智能驅動”的第五範式，更側重於數據和智能的有機結合，成為支撐科學革命、產業革命的新底層邏輯。

一切過去的事情都是序章。人工智慧如此，儲存也如此

AI大模型駛向產業之海，需要高數據「河道」引航

此次大會上，憑藉20年業界深耕，與在AI儲存技術突破、液冷儲存研發等領域的領先實踐，曙光儲存公司總裁惠潤海獲評「儲存先鋒」。在其領導下，多年來曙光分散式文件儲存在市場中持續領先，市場份額名列前茅。以AI大模型為導向的資料儲存解決方案，讓曙光儲存又一次站到了時代前沿。

曙光儲存的AI大模型儲存集群，正在積極實踐範式轉換，以適應新的數據範式，透過數據基礎設施的突破，推動大模型產業化的蓬勃發展

接下來，在儲存產業的新典範、新起點，在曙光儲存的高品質資料「河道」上，我們會看到，產業大模型百舸爭流，AI應用千帆競渡，加速駛向智能中國。

以上是AI大模型駛向產業之海，需要高數據「河道」引航的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：搜狐。如有侵權，請聯絡admin@php.cn刪除

Gemma範圍：Google＆＃039;用於凝視AI的顯微鏡Apr 17, 2025 am 11:55 AM

使用Gemma範圍探索語言模型的內部工作了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包，為研究人員提供了一種強大的探索方式

誰是商業智能分析師以及如何成為一位？Apr 17, 2025 am 11:44 AM

解鎖業務成功：成為商業智能分析師的指南想像一下，將原始數據轉換為驅動組織增長的可行見解。這是商業智能（BI）分析師的力量 - 在GU中的關鍵作用

如何在SQL中添加列？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表語句：動態地將列添加到數據庫在數據管理中，SQL的適應性至關重要。需要即時調整數據庫結構嗎？ Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

業務分析師與數據分析師Apr 17, 2025 am 11:38 AM

介紹想像一個繁華的辦公室，兩名專業人員在一個關鍵項目中合作。業務分析師專注於公司的目標，確定改進領域，並確保與市場趨勢保持戰略一致。 simu

什麼是Excel中的Count和Counta？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 數據計數與分析：COUNT 和 COUNTA 函數詳解精確的數據計數和分析在 Excel 中至關重要，尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的，其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格，但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節，突出它們獨特的特性和區別，並學習如何在數據分析中應用它們。要點概述理解 COUNT 和 COU