生成式AI(AIGC)開啟了人工智慧通用化的新紀元,圍繞大模型的百舸爭流蔚為壯觀,算力基礎設施是首要的競逐焦點,而存力覺醒也日益成為業界共識。
在新的時代,大模型從單模態走向多模態,參數和訓練資料集的規模呈幾何級數增長,海量的非結構化資料需要高性能混合負載能力的支撐;同時,資料密集型範式大行其道,超算、高效能運算(HPC)等應用場景邁向縱深,既有的資料儲存基座已難以滿足不斷升級的需求。
如果說算力、演算法、數據是驅動人工智慧發展的“三駕馬車”,那麼在外部環境發生巨大變化的背景下,三者亟需重新達成動態的平衡。演算法模型完善帶來的「軟實力」提升,算力供給優化引發的「硬實力」增強,需要進一步的加持-資料傳輸的「運力」和資料儲存的「存力」即是尚待改進的動力來源,新型的資料儲存基座將在應對諸多挑戰的過程中破繭成蝶。
需求複雜且持續進化的應用場景,是資料儲存新基座最好的試金石。從這個意義上講,教科研產業就是其中的典型代表:算力與資料是該領域數位轉型的關鍵要素,學科融合的科學研究運算與基於資料的決策支援同等重要。從HPC邁向HPDA(高效能資料分析)是改善教學及科研效率的一大步,而AI的賦能則有助於解決過往算不了、算不準、算不動的難題。
在近日舉辦的2023世界人工智慧大會上,華為OceanStor Pacific分散式儲存輔助上海交通大學建構的HPC AI存力底座正式上線,「交我算」統一資料基座將在今年再擴充25PB,其可望成為教科研數位化、智慧轉型的新標桿,也為資料儲存新基座的探索之旅樹立了里程碑。
伴隨千行百業的數位轉型進入深水區,以及人工智慧、大數據等新興技術的協同爆發,數據與算力的關係正在發生微妙的變化。
教科研領域身處數位經濟的風口浪尖,對此變化頗為敏感。過去,數據必須跟著算力跑。為了應對複雜科學和工程問題的快速數值求解,教科研界在很長一段時間裡更專注於如何打造最強大的算力,而數據僅作為算力的配套設施來考慮。
如今,「算力圍著資料轉」逐漸成為新的趨勢。新興應用的湧現、資料量體的膨脹、資料安全問題的凸顯,讓資料本身的價值備受重視。基於AI、大數據等技術的突破,傳統超算正向資料密集型超算演變,多元異質算力需要圍繞同一個資料儲存基座進行建構。
上海交通大學網路資訊中心副主任林新華認為,數據與算力的主導權發生逆轉,既是建設數據密集型超算平台的契機,也為統一數據存儲基座的構建帶來不少新的挑戰。
首先是資料爆發式成長,對儲存容量的需求顯著提高。根據統計,「交我算」平台的資料規模成長幅度達到每年7PB,氣像海洋、能源探勘、衛星遙感、基因定序、冷凍電鏡、AI自動駕駛、製造CAE、動畫渲染等應用情境的資料量都達到PB級,用一套資料基礎設施容納如此龐大的資料量殊為不易。
其次是新業務不斷湧現,對儲存效能要求更高。 AI通用化進程的提速,特別是大模型、多模態的批量輸出,對IO性能構成嚴峻挑戰。在百TB級資料集成為常態的情況下,自然語言處理、多模態應用加劇了資料量的增速,小檔案訓練資料集的高效存取更要求儲存效能再上新台階。
再次,跨校區多叢集儲存共用,資料在異質叢集間的流動可能造成資料遺失、運作緩慢等問題。 「交我算」平台提供多種異質算力,擁有ARM叢集、X86叢集以及AI叢集等。在眾多集群中,只有做到全數據流動和數據融合,才能釋放算力和數據的最大價值。
最後,傳統AI本地盤訓練,伴隨高並發資料分析,打破IO牆迫在眉睫。資料多次搬遷過程中的IO瓶頸非常突出-傳統的讀寫流程冗長,載入資料涉及三次資料搬遷,checkpoint也有兩次資料搬遷,其間產生的效率損失不容忽視。
為了因應上述挑戰,自2019年起,上海交通大學與華為儲存展開深度合作,共同打造「交我算」資料密集型超算平台。依託在技術與應用創新上的深厚積累,華為OceanStor Pacific分散式儲存產品協助「交我算」建構統一資料基座,支撐起全校多種異質算力平台。
建構分散式統一融合資料基座,是「交我算」擁抱新興資料應用的必經之路。基於橫向擴展分散式儲存架構,「交我算」平台的儲存容量和頻寬可按需擴充。一是性能容量線性成長,單集群可達EB級容量;二是藉助高密大容量硬件,節省機櫃空間;三是採用大比例EC,以場景化壓縮提升磁碟利用率。
據了解,「交我算」平台從初始的2PB容量、6GB/s頻寬,到2020年增至20PB容量、60GB/s頻寬,2022年又擴容至40PB容量、120GB/s頻寬,預計2023年容量將再擴充25PB。同時,華為OceanStor Pacific分散式儲存擁有5U 120碟位的超高密設計,結合超大比例EC資料冗餘保護演算法,在滿足高可靠性的基礎上將硬碟空間利用率提升至91.6%。
分散式全閃硬體加持是「交我算」應對儲存效能難題的基石。在華為OceanStor Pacific的助力下,「交我算」平台採用全閃硬體加速,大幅提升頻寬與IOPS效能,每節點80萬IOPS、頻寬20GB/S能夠滿足混合負載條件下的高效能需求。
全域分散式儲存跨校區統一管理是「交我算」解決多叢集儲存共用難題的良方。透過採用全域檔案系統跨域多套儲存管理的方式,「交我算」平台建構起跨校區的統一資料基座,在華為OceanStor Pacific分散式儲存產品的支撐下,達成全域檔案視圖、資料管理與調度、全域資料流動、統一串流元資料等多重目標。
資料分析加速、多種協定存取無損互通、免搬遷高效用是「交我算」打破IO牆的利器。基於華為面向AI的儲存方案,以及華為OceanStor Pacific分散式儲存「一份數據,多種協議存取」的能力,「交我算」平台實現外部儲存減少數據搬遷,並大幅提升分析效率、節省存儲空間。
透過「交我算」平台攜手華為儲存打造分散式統一融合資料新基座的演進軌跡,不難看出資料密集場景正在加速進化。
從早期的HPC到後來的HPDA,再到HPDA AI的比翼齊飛,教科研產業的應用場景不斷豐富,對儲存產品和資料基座的需求也持續躍遷。事實上,教科研只是千行百業數位化進程的冰山一角,資料儲存的大時代已呼嘯而來。
大模型時代的到來,將進一步重塑包括存力在內的IT基礎設施,帶有嶄新AI基因的儲存產品有望成為產業數位化升級的新寵。 7月14日,主題為「資料新典範 釋放AI新動能」的大模型時代華為AI儲存新品發表會將在線上舉行。無論您正在企業內部署AI,或是讓開發的應用具備AI能力,此次發表的方案都將提供更優的技術架構與產品,幫助您踏準時代的節拍。
人工智慧通用化的大幕已經開啟,儲存產業的領頭羊率先吹響了衝鋒的號角,後面的每一個樂章都值得期待。
以上是AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷的詳細內容。更多資訊請關注PHP中文網其他相關文章!