自ChatGPT爆火之後,AI大模型的研發層出不窮,不同種類的AI大模型也相繼推出,國內儼然已掀起狂熱的百模大戰。
作為革命性的資料模型,ChatGPT帶來的驚喜不僅是內容生產方式的變化,更讓業界看到了通用人工智慧的希望,推動AI大模型和新應用不斷湧現。據專家稱,未來人工智慧研究的重心將有很大程度轉向大型模型,我們正在迎來大型模型的時代。
傳統人工智慧的廣泛應用是由算力、數據和演算法三要素所構成的。但伴隨著通用人工智慧時代(AGI)到來,海量資料需要進行大量的訓練和優化,以達到更高的預測準確性和泛化能力,對算力的需求早已不可同日而語。
在大模型如火如荼之際,算力供給與需求之間存在的巨大「鴻溝」仍在放大,如何解決算力「焦慮」已成為產業界著力的新目標。
算力缺口巨大
基於Transformer結構的大模型要不斷優化,就需要越來越巨量的參數“投餵”,由於訓練的參數量級的增長,致使算力需求也量級增長,算力集群正變得愈發龐大。
以ChatGPT為例,僅就算力而言,OpenAI為了訓練ChatGPT,建構了由近3萬張英偉達V100顯示卡組成的龐大算力集群。以半精度FP16計算,這是一個將近4000P的算力集群。
根據報道,GPT-4的參數規模已經達到了1百萬億級,相應的算力需求也大幅增加。數據顯示,大模型參數數量的成長與算力的平方成正比。
隨著投身AI大模型的公司如雨後春筍般湧現,再加上圍繞大模型的人工智慧生態和由此產生的用於推理的算力需求,未來的算力缺口將更加驚人。
顯然,算力是否足夠將決定各公司大模型產品的成敗。天數智芯產品線總裁鄒翾認為,對頭部企業來說,早期的GPT大模型大概需要1萬張的英偉達GPU,但迭代的大模型或至少需要數千張最先進的GPU才能完成。隨著這一領域出現眾多的跟隨者,對於跟隨企業來說,勢必要在算力上不能輸於頭部企業,甚至還要進行更多的算力基礎設施投資才能實現追趕。
壁仞科技系統架構副總裁丁雲帆在人工智慧產業盛會-北京智源大會發表《基於高效能通用GPU打造國產大模型訓練系統》的演講時指出,ChatGPT的成功要素在於工程與演算法的協同創新,數據是燃料也是基礎,特別是高品質的數據;演算法發揮引擎的作用;算力則是加速器,不只涉及超大GPU集群,儲存與網路集群也至關重要。
由於受禁令影響,國內市場需求主力為英偉達針對中國市場推出的A800和H800,隨著需求不斷擴容,英偉達A800價格漲幅驚人,且交貨週期也被拉長,甚至部分新訂單「可能要到12月才能交付」。
所幸的是,在通用GPU領域國內諸多企業已率先佈局,在晶片量產、生態建構、應用拓展領域也在步步推進,在劃時代的AIGC產業興起之際,也迎來了新的市場空間。
需算力軟硬一體
儘管面臨前所未有的新商機,但要把握住AI大模型的興起機遇,要從底層明了真正支撐大模型的算力需求。
對此鄒翾表示,從模型、計算框架層和算子加速等出發,算力要滿足三大要素,一是通用,可支持模型的快速變形、快速支持新算子、快速支持新通訊;二是易用,可利用現有演算法模組實作、調優經驗可藉鏡;三是好用,可重構平行計算、存取全交換、計算全互聯等。
而要實現這三大要素,其實背後透露更本質的邏輯。正如崑崙芯研發總監羅航直言,國內算力產業化必經三道窄門:一是量產,量產可以極大攤薄先期流片的巨大投入,透過量產攤薄成本是實現盈利的唯一方式,也是衡量晶片成熟度的指標之一;二是生態,為了讓客戶更好地開發應用,要著力構建一個合理、合適的軟體生態;三是軟硬一體產品化,要與垂直行業結合起來實現產品的價值傳遞。
此外,為了進一步支援訓練參數的海量擴展,不僅GPU廠商要有打造數千至數萬張GPU卡訓練集群的能力,同時要確保在訓練過程中能連續工作且不出故障,對產品穩定性和可靠性產生極嚴格的要求。同時,也要支援可擴展的彈性能力,實現算力彈性可擴容。
據丁雲帆總結,訓練包含千億參數的大型模型時,客戶最關注的是可存儲性和可擴展性。除此之外,客戶還要求模型易於使用、運行速度快、成本低。
值得一提的是,為全面助力大模型的發展,國內包括寒武紀、崑崙芯、燧原、壁仞、天數智芯、沐曦、摩爾線程等廠商也均圍繞底層技術支撐做了大量功課,透過最大化資料復用、可擴展大矩陣運算和存算異步、混合精度Transformer加速來提升晶片效能。同時,持續在基礎軟體方面提昇實力。
「壁仞除在GPU算力、成本等方面著力之外,還多維切入提供強大的支撐:一是集群規模按需擴展,多個數據面並行通信,減少衝突;二是可訪問多個機器學習框架,以資料並行維度進行彈性調度,支援自動容錯與擴縮容,大幅加快訓練速度,提升效率,並支援任務跨交換機遷移,降低單交換機下資源碎片,提升資源利用率,保障任務穩定性。
生態是未來關鍵
更深層來看,國產大模型的訓練既離不開大算力GPU的支持,也更需要建構一個軟硬一體全端覆蓋的成熟產業生態。
進行AI大模型訓練,稱得上是一項考驗全面升級的系統工程。丁雲帆介紹說,這項工程包含涉及高效能算力集群、機器學習平台、加速庫、訓練框架和推理引擎等,需要包括CPU、儲存、通訊在內的分散式硬體支援高效互聯,並與訓練框架流程實現全面的協同,同時要實現並行擴展和穩定可靠。
也正是由於這樣的需求,國產GPU要適應大模型訓練系統考量的角度就不僅限於算力基礎,如何為產業夥伴提供一站式的大模型算力及賦能服務才是終極考驗,因而生態建構也至關重要。
圍繞這項需求,國內一些GPU廠商已然先行佈局,致力於打造軟硬一體的全端大模型解決方案,在包括以大算力晶片為基礎的高性能基礎設施、智能調度管理數千GPU卡的機器學習平台、高效能算子庫和通訊庫以及相容適配主流大模型的訓練框架層面持續發力。
為共同推動算力與大模型應用的協同創新,GPU廠商與國產大模型的產業生態也正在加速合作步伐。
據悉壁仞科技已先後加入了智源研究院FlagOpen(飛智)大模型技術開源體系與智源研究院「AI開放生態實驗室」項目,並在AI大模型軟硬體生態建設領域開展了一系列合作。雙方參與的科技部科技創新2030「新一代人工智慧」重大計畫-「人工智慧基礎模式支撐平台與評測技術」產業已取得重要進展。
此外,壁廄科技也參與了「飛槳AI Studio硬體生態專區」的建設與聯合發布,希望與包括百度飛槳在內的眾多生態合作夥伴緊密協作,結合中國AI框架與AI算力的優勢,為中國AI產業的發展提供強大驅動力。
據介紹,天數智芯的通用GPU產品廣泛支持DeepSpeed、Colossal、BM Train等各種大模型框架,基於其構成的算力集群方案也有效支持LLaMa、GPT-2、CPM等主流AIGC大模型的Pretrain和Finetune,也適配了清華、智源、復旦等在內的國內多個研究機構的開源專案。
放眼未來,AI大模型需求會持續走高,國內GPU廠商如何持續迭代產品、不斷升級算力解決方案,適配支援更有效率、更複雜演算法的大模型,仍將是一項持久的考驗。
【來源:集微網】
以上是AI大模型興起 考驗國產GPU算力成色的詳細內容。更多資訊請關注PHP中文網其他相關文章!