5月30日,在2023中關村論壇成果發表會上,《北京市加速建置具有全球影響力的人工智慧創新策源地實施方案(2023-2025年)》正式發表。 《實施方案》要求,支持創新主體重點突破分散式高效能深度學習架構、大模型新型基礎架構等技術,並著力推動大模型相關技術創新。
這被業界視為中國將強力推動大模型發展的又一力證。事實上,近期從中央各部會到地方省、市,對於發展AI技術,把握大模型機會的政策傾斜度不斷上升,無論是政策出台密度還是整體戰略高度,都達到了驚人的水平。
有理由相信,中國將實現一場以大模型為突破點的AI狂飆突進。自2017年開啟新一代人工智慧發展策略以來,中國將在目前機會窗口中再發展,推動AI產業全面爆發。
我們都知道,抓住AI發展機遇,需要以技術突破與基礎建設為基礎,而提到AI產業的基礎設施,普遍會提到AI晶片、深度學習框架、預訓練大模型,卻常常忽略另一個關鍵問題:大模型將帶來巨大的資料壓力,資料儲存也是AI發展過程中的支柱。
ChatGPT是這一輪AI爆發的引線,而接下來大模型規模化應用帶來的資料難題,其實也早已寫在ChatGPT當中了。
面對這種即將到來的壓力,中國存力準備好了嗎?
從ChatGPT看AI崛起帶來的資料挑戰
#從2018年Google發布BERT,業界開啟了預訓練大模型之路。大模型的特點是訓練資料規模與模型參數龐大,這將為儲存帶來嚴峻考驗,這點在ChaGPT中也展現無疑。
預訓練大模型所謂的“大”,體現在模型的深度學習網路層數多、連結多、參數複雜,以及訓練所用資料集種類更複雜,資料數量更豐富。在深度學習演算法剛誕生時,主流模型只有幾百萬參數,而BERT發佈時模型參數就已經過億,將深度學習推進到了大模型階段。到了ChatGPT這個階段,主流模型已經有數千億參數,甚至業界已經開始規劃一兆個模型。幾年時間裡,AI模型的參數提升數千倍,如此龐大的數據與模型都需要進行存儲,這就成了AI爆發給存儲的第一大考驗。
此外,大家目前會廣泛提到AI大模型採用了全新的模型結構,因此對非結構化資料會有更好的吸收效果與穩健性,這對於AI最終效果非常重要,但也帶來一個衍生問題:我們需要妥善處理儲存和調用海量的非結構化資料。比方說,ChatGPT在升級後加入了識圖等多模態能力,因此其訓練資料也需要在文字基礎上加入大量圖片,再例如自動駕駛車輛,每天要將大量實地測試影片儲存起來作為模型訓練依據。這些非結構化資料的成長帶來了與AI相關資料海量成長的難題,涉及資料儲存和處理方面。
根據統計,目前全球新增數據有80%都是非結構化數據,年複合成長率達38%,因應多元化的數據激增,已成為大模型時代必須克服的困難。
還有一個問題,大模型往往需要頻繁讀取和呼叫資料。 ChatGPT的資料存取使用量達到單月17.6億次,平均反應速度在10秒以內,且AI模型的工作流程包括擷取、準備、訓練、推理四部分,每個階段需要讀寫不同類型的資料。因此,大模型對儲存效能也帶來了要求。
此外,圍繞ChatGPT展開的一系列資料主權、資料保護爭議,也提醒我們AI大模型帶來了資料安全方面新的風險。試想一下,如果不法分子攻擊資料庫,從而令大語言模型產生錯誤訊息欺騙用戶,其危害結果既嚴重且隱蔽。
綜合來看,ChatGPT雖好,但對資料儲存的規模、效能、安全性等方面都提出了挑戰。當我們致力於發展大模型和類ChatGPT應用的時候,儲存這關不得不過。
中國存力,準備好了嗎?
最近幾年,我們都在說算力就是生產力。但有算就要有存,存力的極限,也決定了數位化生產力發展的上限。
那麼,在接下來必然出現的中國大模型狂飆突進中,中國存力是否已經做好準備了呢?很遺憾,從幾個方面來看,今天中國存力的準備依舊不充分,需要進一步升級和發展。我們可以一同來關註一下中國存力存在的幾個問題,看看他們是否對應了大模型帶來的數據壓力。
1.存力規模不足,限制AI產業發展上限
#大模型將帶來大量數據,那麼第一要務就是將這些數據妥善儲存。但在目前階段,中國依舊有著存力不夠,大量資料甚至無法進入儲存階段的問題。從2022年數據來看,中國數據生產量已經達到了驚人的8.1ZB,位居全球第二。但中國存力規模只有1,000EB左右,代表資料可儲存率僅12%,絕大多數資料無法有效保存。當中國已明確數據作為第五生產要素的地位,智能化發展需要依靠數據、充分利用數據,卻有大量數據難以完成保存,這之間的問題不可謂不嚴重。中國仍需維持高速、大規模的存力成長,才能掌握大模型帶來的AI技術發展機會。
2.海量資料衝擊下,管理效率與存取效率低
如前所述,AI大模型所帶來的主要資料挑戰在於管理龐大資料和處理資料擷取儲存的效率低效。提升存取效率,要求資料以高效率、低能耗的方式完成存寫,但目前在中國仍有75%的資料在使用機械硬碟。相對於隨身碟,機械硬碟容量密度低、資料讀取慢、能耗高、可靠性差,相對來說,全快閃記憶體具有高密度、低能耗、高效能、高可靠的一系列優點,但中國全快閃替換依舊有較長的一段路要走。
3.多重資料隱憂,導致儲存安全情勢嚴峻
資料安全問題,已經成為AI公司乃至AI產業迫切關注的問題。在2020年美國的Clearview AI公司發生資料安全事故,造成2,000多家客戶的30億筆資料外洩。這個案例向我們展現了AI產業的資料安全情勢十分嚴峻,我們必須從資料儲存階段開始重視安全。尤其當AI大模型在國計民生中扮演的角色愈發重要,就更需要儲存提升安全能力,以應對各種可能的風險。
客觀來看,中國存力已經維持了較高的發展速度,但在整體規模、全快閃佔比以及技術創新能力上,依舊具有一定程度的不足。一場面向產業智慧化需求與AI大規模落地的儲存升級已經時不時待。
面向智慧時代,儲存產業的機會與方向
#結合ChatGPT所代表的AI大模型帶給儲存的壓力,以及中國存力本身的發展現狀,我們可以很清楚地得出一個結論:中國儲存必須支撐AI崛起,完成大規模的升級。
我們可以清楚地看到儲存產業的發展方向,這些方向的急迫性與廣闊空間,構成了儲存產業的重大機會。
首先,需要擴大存力規模,加速全快閃建置。
全快閃替換機械硬碟的“矽進磁退”,是儲存產業多年來的整體發展趨勢。面對AI崛起的產業機會,中國儲存產業需要加速全快閃替代的實施與落地,最大化發揮出全快閃高效能、高可靠等優勢,以因應AI大模型帶來的資料存用需求。
此外,還必須注意的一點是全快閃分散式儲存的機會正在增加。隨著AI大模型的崛起,非結構化資料的爆發,資料重要性正在顯著提升,同時AI已經深入到大型政企的生產核心,更多企業用戶傾向進行本地化的AI訓練,並且採用基於文件協定的資料存儲,而不是資料放到公有雲平台,這就導致分散式儲存的需求得到提升和加強。
二者結合,持續快速推動儲存產業的全閃化落地,就成為了中國儲存產業發展的核心賽道。
其次,需要提升儲存技術創新,適應AI模型的發展需求。
上文提到,AI帶來的資料考驗不僅是資料規模大,更是資料複雜度與應用流程多樣性的挑戰,因此儲存的先進性必須進一步提升。比如說,為了因應AI頻繁的資料存取需求,儲存的讀寫頻寬和存取效率都需要升級。為了配合AI大模型的資料需求,儲存產業需要全方位的技術升級。
在資料儲存格式方面,傳統的資料格式,例如“檔案”“物件”,最初的設計意圖並不是匹配AI模型的訓練需求,且非結構化資料的資料格式不統一,使得在AI模型在呼叫資料的過程中,會產生大量對檔案格式進行重新理解、對齊的工作,進而造成模型運作效率下降,訓練算力消耗增加。
為此,就需要在儲存側形成新的「資料範式(Data Paradigm)」。以自動駕駛訓練為例,不同類型的資料都參與了資料訓練的進程當中,如果在儲存側採用了新的資料範式,就可以幫助各種資料統一起來,更好地適配到AI模型訓練當中,從而加速自動駕駛車輛的訓練工作。打個比方,如果把AI想像為一種新的動物,它需要吃一種新的飼料,如果把傳統格式的數據餵給它,就會產生消化不良的問題,而新數據範式,就是在存儲側構築完全適合AI的數據,讓「餵食AI」的過程絲滑順暢。
在AI開發工作中,資料管理的工作量佔比龐大,不同資料集之間還會有資料孤島問題,而資料編織技術能夠效應對這些問題。透過數據編織,可以讓儲存內置數據分析能力,把物理邏輯上散佈的數據整合起來,形成全局視圖化的數據調度和流動能力,從而有效管理AI帶來的海量數據,達成數據利用效率的提升。
這些儲存側的技術創新,可以讓資料存力與AI發展形成更緊密的契合關係。
此外,需要將安全能力納入儲存本身,強化主動安全能力。
伴隨著AI發揮的價值越來越大,資料安全問題帶給企業用戶的損失也更多。因此,企業必須提升資料安全能力。其中最重要的一點是要提升資料韌性,讓儲存本身俱有安全能力,從源頭守護資料安全。接下來,更多資料韌性能力將被內嵌到資料儲存產品中,例如勒索偵測、資料加密、安全快照和AirGap隔離區復原特徵等。
值得注意的是,目前業界已經有了以AI大模型崛起,進行儲存全面升級的探索與嘗試。華為儲存透過高品質的全快閃產品,融合先進的儲存技術、內嵌的安全能力,實現了儲存創新與AI發展的緊密契合,相向而行。
整體而言,儲存產業的發展與中國存力的進步,對於AI大模型的落地,乃至千行百業的智慧化升級,都有著舉足輕重的意義。脫離了儲存的發展,AI帶來的資料洪潮將難以妥善化解,AI技術甚至可能由於缺乏資料支撐,變成無本之源,無根之木。
智慧時代的機會與責任,剛好同時擺在了儲存產業面前。在華為等優秀品牌的存力探索下,中國儲存正迎來史無前例的機會,也承擔時代給予的責任。
許多業界專家認為,大語言模型是AI歷史上的“iPhone時刻”,那麼AI技術帶來的存力升級潮,或許也將成為中國儲存產業的里程碑時刻,成為一個黃金時代的序章。
以上是AI狂飆突進,存力需作先鋒的詳細內容。更多資訊請關注PHP中文網其他相關文章!