在算力緊張的背景下,如何提升大模型訓練和推理的效率,並降低成本,成為業界關注的焦點。
11月23日,騰訊揭露,騰訊混元大模型背後的自研機器學習架構Angel再次升級,大模型訓練效率提升至主流開源架構的2.6倍,千億級大模型訓練可節省50%算力成本。升級後的Angel支援單任務萬卡等級超大規模訓練,進一步提升騰訊雲HCC大模式專屬算力集群的效能與效率。
同時,Angel也提供了從模型研發到應用落地的一站式平台,支援用戶透過API介面或精調等方式快速呼叫騰訊混元大模型能力,加速大模型應用構建,騰訊會議、騰訊新聞、騰訊視頻等超過300個騰訊產品及場景均已接入騰訊混元內測。
目前,相關能力已透過騰訊雲對外開放。基於升級後的Angel機器學習框架,騰訊雲端TI平台可提供更優的訓練和推理加速能力,並支援客戶用自己的資料一站式訓練精調,基於騰訊混元大模型打造專屬智慧應用。
隨著大模型時代到來,模型參數呈指數級增長,達到萬億級。大模型逐漸從支持單一模態和任務發展為支持多種模態下的多種任務。在這種趨勢下,大模型訓練所需算力龐大,遠超單一晶片的處理速度,而多卡分散式訓練通訊損耗龐大。如何提高硬體資源利用率,成為影響國產大模型技術發展與實用性的重要前提。
為了針對大模型訓練,騰訊開發了一套名為AngelPTM的機器學習訓練框架,該框架針對預訓練、模型精調和強化學習等全流程進行了加速和最佳化. AngelPTM採用了最新的FP8混合精度訓練技術,結合了經過深度優化的4D並行和ZeROCache機制來優化存儲,可以與多款國產化硬體兼容適配,能夠以更少的資源和更快的速度來訓練更大的模型
2023年4月,騰訊雲發布了大型模式的新一代HCC高效能運算集群,其效能比前代提升了3倍。除了硬體的升級外,HCC還對網路協定、通訊策略、AI框架和模型編譯等進行了系統級優化,大大降低了訓練調校和算力成本。之前,AngelPTM已經透過HCC提供了服務,此次Angel機器學習框架的升級將進一步提升HCC大模型專屬算力集群的性能,為企業加速大模型的實際應用提供了幫助
#為了解決模型參數增加所帶來的訓練挑戰和推理成本不斷上升的問題,騰訊自研的大模型推理框架AngelHCF透過擴展並行能力、採用多種Attention優化策略等方式提升了效能。同時,框架也適配了多種壓縮演算法,以提高吞吐能力,從而實現更快的推理性能和更低的成本,支援大型模型推理服務
相對於業界主流框架,AngelHCF的推理速度提高了1.3倍。在騰訊混元大模型文生圖的應用中,推理耗時從原本的10秒縮短至3至4秒。此外,AngelHCF還支援多種靈活的大模型壓縮和量化策略,支援自動壓縮
作為實用級大模型,騰訊混元大模型從研發之初就面向應用場景而生,在實踐中解決大模型落地難點。騰訊產品及應用種類多、流量大,讓模型真正「用起來」挑戰很大。基於Angel,騰訊構建了大模型接入和應用開發的一站式平台,包含數據處理、精調、模型評估、一鍵部署以及提示詞調優等服務,讓大模型的“開箱即用”成為可能。
騰訊混元大模型在模型存取方面,提供千億、百億、十億個尺寸的模型,完全適應各種應用場景的需求。只需進行簡單微調,就能滿足業務需求,並降低模型訓練和推理服務的資源成本。在問答、內容分類等常見應用場景中,具有更高的性價比
應用開發層面,騰訊內部已有超過300項業務和應用場景接入騰訊混元大模型內測,相較於上個月數量翻了一倍,涵蓋文字摘要、摘要、創作、翻譯、程式碼等多個領域。
2023年9月,騰訊自主研發的實用級大型模式騰訊混元正式亮相,並透過騰訊雲進行開放。騰訊混元擁有超過千億的參數規模,預訓練語料庫包含超過2兆個tokens。它集合了騰訊在預訓練演算法、機器學習平台和底層算力資源等多個方面的自主技術積累,並在應用中持續迭代,不斷優化大型模型的能力。目前,來自零售、教育、金融、醫療、傳媒、交通、政務等多個行業的客戶已經透過騰訊雲接入了騰訊混元大型模型
#以上是騰訊揭露了節省50%算力成本的最新大模型訓練方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!