在青雲科技AI算力發布會上,苗慧產品經理詳細介紹了青雲AI算力調度平台和青雲AI算力雲服務。以下是演講全文整理:
人工智慧使用者面臨著算力挑戰
隨著人工智慧產業的爆發,AIGC、大模型、科研計算、企業級大數據及人工智慧對算力中心提出了更高的需求。尤其是面對單一算力的資料中心,已經難以滿足各行各業日益增長的算力需求,因此需要更多的智算中心、超算中心和通用雲端運算服務,為全社會提供算力服務。
然而 AI 產業、 AI 基礎設施和 AI 算力的使用者也面臨一系列挑戰:
多元資源統一管理瓶頸。面對用戶多算力、多儲存、整個運算網路以及就近服務的要求,青雲提供多元的資源管理統一服務調度平台,來解決多元資源管理混亂的情況。
高速網路瓶頸。在 AI 高速網路建置方面,青雲將運算和儲存設備使用高速網路進行互聯,使用通用網路進行應用服務發布,即透過青雲的平台解決多區域高速網路問題。
環境建置繁瑣瓶頸。演算法工程師、研發工程師在硬體伺服器、對儲存伺服器等基礎環境建置上可能浪費大量時間,透過青雲 AI 智算服務、訓練平台和推理模型平台,將環境搭建簡潔化,可實現一鍵部署。
多業務整合瓶頸。青雲將多業務整合起來,結合傳統雲端運算、超級運算和智算,面向更多業務為更多客戶提供全景的算力服務。
缺乏營運服務。青雲同時對算力營運中心、算力管理部門提供全面的營運和運作管理服務。
青雲 AI 算力調度平台
青雲 AI 調度產品的全端產品架構是多 AZ、多 Zone 的,即多區域的產品都能統一融合起來,以一個 Global 的服務面向全社會提供算力服務。具體來說會透過納管底層基礎設施,透過資料邏輯層將基礎設施邏輯化、業務化,透過具體的產品或服務,包括GPU 主機、裸金屬、虛擬化、共享形式等,形成AI 算力集群、容器推理服務以及模型市場等相關業務,為全行業的客戶提供算力調度與應用場景落地能力。
四面俱到 算力建設中心新模式
整體而言,青雲科技提供的 AI 算力調度平台能力主要基於以下四個面向:
第一,全平台適配市面上所有的運算晶片(包括新產出的信創晶片),以及 GPU 相關顯示卡和網路卡。
第二,對以上適配資源進行統一管理、分發、監控和調度,從使用者申請到使用後釋放提供全生命週期線上管理功能。
第三,面向管理端和用戶端,青雲統一納管平台讓使用者和管理員能完整操作 AI 基礎架構和 AI 算力雲端服務。
面向智算領域,青雲將更多的業務進行業務化和場景化,例如大語言模型訓練與推理、基於文字式生成的負載平衡服務,青雲也能透過AI 算力調度平台,為客戶提供一鍵部署、一鍵擴容和一鍵負載平衡等便利操作。在負載平衡方面,尤其在網路、公網和運算基礎設施,能達到秒級交付、秒級擴容。
最後,基於以上三種能力,青雲能支援包括高效能運算、人工智慧運算和通用運算模式等各行各業的運算,為客戶打造一個自主創新、功能完善等統一的使用者管理、發行與營運平台。
九大能力 解鎖 AI 算力自由
透過多年產業積累,青雲 AI 算力調度平台形成九大關鍵能力:
1、多區域多業務資源整合能力
尤其面向川西或西北地區的算力服務多元化,為東部地區、科研單位、高校提供算力服務時,青雲可將多區資源統一納管,透過跟電信業者合作建設有效的高速網路。
2、分散式調度與管理能力
根據就近使用原則青雲在不同的區域、算力中心、資料中心將所有的基礎設施(包括運算資源、儲存資源)進行管理分配,配置調度優先級,包括親和力和非親和力。在VM、宿主機及裸金屬伺服器(包括容器基於Container 和Pod 的形式)都可以在青雲AI 算力調度平台的管理端進行親和力和非親和力的資料配置,保證資料調度的優先級,目的是為了確保使用者在最終使用資料、申請計算資源、業務訓練、業務推理中得到一致性體驗。
3、資源調度能力
在資源調度能力上,青雲有以下六大優點:
1)立即調度、擴充數萬卡的資源
主要面向 AI 計算場景,尤其是大模型推理,部分模型場景需要一年幾次推理,這需要瞬間建立幾十張卡片甚至幾萬張卡片的訓練平台。根據這個訴求可以在青雲 AI 算力調度平台上內建、適應和資源管理,確保算力群集可以立即支援萬張卡的資源,使用完成後也能立即釋放。在資源環境與配置方面,青雲 AI 算力調度平台都做了大量自動化,確保萬卡資源能統一調度。
2)通訊鏈路最短優先調度
讓資料不繞路,這也是青雲 AI 算力調度平台主要的目的。在AI 訓練、AI 推理的場景下,節點和節點之間、節點和儲存之間會有大量的資料交互,在這種情況下青雲對交換器同時進行一些配置,保證計算和儲存資源能在一個交換機下,或一個機房內、一個機櫃內進行優先調度,讓資料不繞路,減少AI 訓練過程中網路傳輸困難的限制。
3)支援異質平台
用戶在建設集群時可以選擇不同的業務跑到不同的卡上,青雲科技同時對晶片也進行了國產適配與國產替代。 4)提升調度系統顆粒度
一是基於 Slurm 的調度系統,二是基於 K8s 的調度系統。在調度系統顆粒度方面,使用者能感知到真正作業等級的精確度,在每一個訓練的任務跑到每一張卡片上的每一個進程上,都可以透過大規模的資料監控、業務調度等形式,監控到作業異常情況,確保使用者能及時處理訓練任務的異常情況,實現資源調度的最大化,在此層面上減少浪費,錯了馬上修改再立即運行。
5)管理端實作調度優先配置
#因為不同的算力中心會運作不同的算力服務,尤其是多資料中心的情況下,使用者可透過青雲AI 算力調度平台進行調度的優先配置,前期全部內建化,後期使用者還可以進行預留、暫停、恢復、優先設定、排隊等設置,提高優先順序。在管理階層面上青雲可以針對特殊申請的用戶或優先順序高的用戶,進行資源優先分配。
6)面向智算產業靈活調度配置資源
青雲能動態且靈活地進行資源調度和可配置,解決 AI 系統中具有挑戰性的優先事項。這也是青雲不斷發現 AI 調度算力或 AI 場景下的新問題,不斷用平台解決新問題,用新產品解決產業的一些主要問題。
4、高速並行儲存能力
青雲的運算和儲存產品是多元且多樣化的,提供以下三種儲存:
1)青雲 U10000 物件儲存
儲存模型、程式碼和常用的資料調用,主要面向大規模資料備份、資料讀取方面的一些操作。
2)並行檔案儲存 EPFS
#在資料大規模並行寫的方面,青雲提供了平行檔案儲存 EPFS,主要針對於 MPI 層級的資料的寫入操作,提供全閃並行檔案儲存。
3)檔案儲存 NAS
可以放一些通用的文檔、文字等,青雲所有的儲存產品都能跟著自身運算產品進行內部互聯,在內部高速網路上進行資料傳輸、分發、備份等。
5、混合網路能力
面向不同的運算場景可以提供不同的高速網絡,例如運算 IB 網和儲存 IB 網,它們之間如何進行最優配置?
青雲將高配置的運算產品和高配置的儲存產品進行互聯互通,將中配置、低配置的進行互聯互通,用於訓練場景、推理場景和通用應用服務場景。
6、演算法開發支援能力
面向演算法開發人員,青雲提供更全面的雲端服務產品,尤其是在演算法開發階段需要大量調參、大規模編寫程式碼,在訓練和部署時由於雲端上和雲下的操作,可能會帶來大規模的資料上傳、下載或程式碼拷貝,不太適合線上編輯、立即運行。
因此青雲在演算法開發方面提供演算法開發的平台,能基於雲端服務啟動線上開發環境,完整地建構 Python 工程、VC 工程,線上使用工程文件和工程環境,進行程式碼的研發。
在研發過程中,如果有需要調試的也可以立即擴容;如果需要訓練可以將作業任務立即分配到訓練集群上;如果需要推理,就放到推理集群上。
同時,演算法開發過程中,可能會有一些共同開發或混合開發的形式,青雲也提供程式碼倉庫和鏡像倉庫進行模型管理,不同的人員採用不同的權限進來進行統一的演算法開發和服務合併。
一言以概之,青雲面向演算法開發人員主要提供全開發場景的運算產品和調度產品,保證整個演算法開發業務在雲端上能有效運作起來,減少大規模上傳、下載操作。
7、AI 訓練平台
如果演算法開發在接近尾聲或需要調試的情況下,需要啟動大量的算力基礎設施進行開發訓練,基於基礎設施青雲提供 AI 訓練平台可為用戶賦能。
當 GPU 資源、儲存資源和網路資源建置好後,使用者可透過雲端平台進行自主構建,實現一鍵運作。青雲 AI 訓練平台主要基於自身 GPU 資源,在線上建立集群,建置完成後會預設掛載某一個存儲,使用者可以自行選擇。
在青雲AI 訓練平台上同時會內建線上開發環境,在開發環境下還會內建一些常用的訓練框架,透過叢集統一向使用者提供全場景和全應用程式環境,讓使用者可以多機在線上進行分佈式訓練。
8、容器推理服務平台在大模型訓練幾乎結束後,面向大眾提供推理服務時,青雲容器推理服務平台就能發揮作用。
透過青雲容器推理服務平台,用戶佈署推理服務後,再用配置好的負載平衡和自動伸縮,保證用戶訪問量能立即得到呼叫。同時青雲面向客戶提供線上的監控服務,如果推理服務出現問題,使用者可以立即監控到容器推理出了什麼問題,青雲可以在線上解決。在面向並發性操作和大規模呼叫操作上,青雲還可以進行負載平衡和自動伸縮,大幅減少人工配置操作。
9、模型倉庫(MaaS)
青雲模型倉庫(MaaS)主要針對AI 算力服務客戶及通用運算客戶,模型服務商可以根據自己模型的需求在應用市場、模型市場進行產品上架,方便各企業的客戶能一鍵調用、一鍵微調、一鍵部署使用。
三:激發多元價值 加速場景落地
總的來說,青雲 AI 算力調度平台目的是像管理本地資源一樣,管理 AI 基礎設施,主要體現在五大方面:
1、提供多元算力統一調度
面對 GPU 資源、CPU 資源、國產晶片、應用框架、應用程式以及使用者的業務場景,青雲都統一使用一個平台進行調度和管理,也包括儲存設施和網路設施。
2、基於基礎設施實現智慧化算力調度
針對算力調度優先權、親和力,基於 VM、宿主機和容器,使用者都能透過青雲的平台實現智慧化算力調度和配置,以及管理服務。
3、對國產晶片快速有效適配青雲對國產晶片能進行有效適配、快速適配,保證國產化的演算法服務、國產化的程式碼能在國產晶片上立即運作起來。
4、視覺化服務
面向管理端的智慧維運方面,青雲的監控、警報服務等都透過一個大的營運和維運平台為客戶和管理員提供視覺化操作。
5、豐富的應用市場
青雲科技積極建立生態,打造豐富的應用市場,讓各行各業的應用和各行各業的客戶,都能在青雲 AI 算力平台上得到想要的運算資源和業務資源。
目前青雲 AI 算力調度平台已在濟南超算應用落地,山河雲已上線提供營運服務。青雲基於濟南超算上萬台的硬體基礎設施,多種計算網絡、伺服器等,進行上架、管理、調度服務,對不同機房以及超算業務、智算業務、GPU,以及基於各種存儲和網絡訊息,進行統一納管整合、管理和分發,為各行各業的客戶提供算力調度的產品和算力雲端服務產品。
青雲 AI 算力雲服務
青雲 AI 算力雲服務產品也在青雲公有雲上進行上架提供服務,主要針對大模型訓練場景。
在面向比較高優先級和高配置的卡上,青雲來提供公有雲的算力服務產品,在AI 場景下青雲將底層資源構建分佈式GPU 算力集群,綁定公網環境,讓用戶進行訪問。
使用者可以基於此將資料上傳到平行文件儲存上,也可以將平行文件儲存和GPU 算力集群,透過私有網路保證資料安全和保證雲端服務的安全性,統一納管到同一個網路裡。還可以透過線上訓練、遠端SSH存取分散式算力叢集和並行檔案存儲,將業務運作起來。
在業務上,使用者可以使用 AI 算力叢集、容器推理服務,其基礎架構都是 A800 資源、裸金屬伺服器、虛擬化伺服器。所有青雲 AI 算力雲服務產品下都採用高速互聯的網絡,採用針對 AI 算力行業所需的在線環境、開發環境、訓練和推理環境等,歡迎大家申請註冊和試用。
以上是詳解青雲科技推出AI算力產品與服務應對算力挑戰的詳細內容。更多資訊請關注PHP中文網其他相關文章!