大模型爆火的一年中,生成式 AI 產業最重要的發展瓶頸出現在算力側。 9 月 20 日,紅杉美國在《生成式 AI 的第二幕》文章中提到,許多生成式人工智慧公司在過去一年很快就發現,自身的發展瓶頸不是客戶需求,而是 GPU 緊張。漫長的 GPU 等待時間成為常態,以至於一個簡單的商業模式出現了:支付訂閱費以跳過排隊,而獲得更好的模型。 在大模型的訓練中,參數規模的指數級增加,帶來了訓練成本的急遽攀升。 對於緊張的 GPU 資源,盡可能地發揮出硬體的效能,提高訓練效率,變成一件更重要的事情。 AI 開發運算平台是重要的解決方案。 利用 AI 開發運算平台,一個大模型開發者可以一站式完成涵蓋資料準備、模型開發、模型訓練及模型部署的 AI 開發全流程。除了能夠降低大模型開發的門檻,AI 運算平台透過提供訓練最佳化以及推理管理服務,讓運算資源更有效率。 9 月26 日,根據京東雲在西安城市大會上對言犀AI 開發運算平台的介紹,使用京東雲所推出的言犀AI 開發運算平台,不到一周時間,即可完成從資料準備、模型訓練、到模型部署的全流程;之前需要10 餘人的科學家團隊工作,現在只需要1-2 個演算法人員;透過平台模型加速工具優化,使用團隊能夠節省90% 的推理成本。 更重要的是,在大模型快速走入千行百業的當下,言犀AI 開發計算平台透過對大模型演算法開發者和應用開發者同時賦能,對於應用程式開發者也能夠使用低程式碼的形式實現大模型產品開發。 產業大模型開發變得門檻更低,利用和改造大模型,將更加簡單了。 #
對一個大模型開發者來說,如果沒有AI 開發運算平台,意味著:在演算法和應用的開發過程中,需要自行建構底層GPU 算力資源的調度、儲存網路、模型管控等一系列體系,整體開發過程將非常原始且門檻非常高。 而對於一個正在在內部推行大模型產業應用的公司來說,這意味著成本的迅速上升,以及訓練效率的難以保證。 一年時間過去,金融、行銷、汽車、內容、法律、辦公室等產業正積極與大模型結合。大模型的強大位能成為許多產業中重構競爭格局的重要影響因素。更快找到自己業務與大模型結合的場景,並有效率地落地執行,成為競爭的關鍵。 但發展產業模式並不是一件順利的事,如今仍面臨一系列的挑戰與機會:資料上,不同產業的資料呈現不同的集中度和分散狀態,資料準備週期和處理難度各有千秋;海量多模態的資料在訓練時如何高效加載,是一個必須要解決的問題。 其次,大模型訓練時環境的穩定性,故障斷點恢復及接續訓練的處理,對訓練效率產生很大影響;在訓練和部署環節,如何有效率的進行算力調度,提升算力資源利用率,也是企業必須考慮的成本問題。 京東雲在西安城市大會上的分享稱,在過去一段時間的實踐中,京東雲發現,產業大模型的挑戰不僅僅在於技術本身,如何將科技與產業應用場景結合,如何平衡成本、效率、體驗,才是大模型產業落地的真正挑戰。 回歸到最基礎的開發層面,平衡好成本、效率、體驗,意味著需要重新解決並優化一些問題。 京東雲 IaaS 產品研發部負責人龔義成在採訪中進一步解釋稱,大模型時代對開發基礎設施的要求與傳統已經產生了巨大的差別。在效率層面上,過去AI 開發過程中,即使是相對低成本一些的GPU 也可以完成很多相關工作,但是在大模型場景下,AI 開發已經嚴重依賴A100、A800 等高成本GPU,對GPU 的算力和性能要求變得更高,成本也隨之快速攀升。 「因此,在高昂的成本下,如何把這些硬體效能壓榨到極致,對於大模型開發的成本效率就變得尤為重要。」 在過往AI 的開發中,資料吞吐的並發度並沒有像大模型這麼大,因為它需要許多GPU 同時工作,因此即使本身資料量不大,但大模型的並發讀取以及可能帶來的延遲問題,對高效能的儲存提出了新的要求,而過往的儲存機制通常無法滿足。 龔義成也提到,由於資料存取過程中,如果延遲越低,那麼整個模型的效率就會更高。如果利用自研的智慧晶片,就可完全採用低延遲的網絡,那麼就能幫助整個模型訓練效率的提升。 另外,在規模層面上,千億參數以上的大模型訓練基本上都要用到千卡以上進行訓練。龔義成分享稱,這在以往的 AI 開發中是極其少見的,因此這對開發提出了很高且全新的經驗要求,對應的開發基礎設施也完全不一樣。 對於想要提高大模型開發效率,幫助大模型更好得在產業中落地的公司來說,一套新的基礎設施成為了必要。 9 月26 日,京東在西安城市大會上正式對外發布了言犀AI 開發計算平台,產品涵蓋了資料準備、模型開發、模型訓練及模型部署的AI 開發全流程能力,預置了主流開源大模型以及部分商業化大模型,以及一百多種推理工具和框架,能夠有效降低大模型開發門檻和成本。
在效能提升方面,言犀 AI 開發運算平台在算力和儲存上做了許多技術突破。在底層,平台能夠進一步對 GPU 算力進行整體調度和統籌,並提高對平台的底層資源使用的調度效率。 根據京東雲方面的分享,算力方面京東雲將在平台中提供第五代的雲端主機,各種高效能的產品形態,可以提供算力最大可以支援數十萬的GPU 節點規模。 網路層面則透過自研 RDMA 擁塞演算法,全域調控 RDMA 網路流量路徑,不同 GPU 節點最大支援 3.2 Tbps RDMA 網路頻寬,傳輸時延低至 2 us 左右作為基礎能力支撐。 在存儲方面,針對大模型訓練數據吞吐量大的情況,京東雲的雲海分佈式存儲,能夠支持大模型海量數據高並發集群要求,可以做到千萬級IOPS,延遲低至百微秒。配合新的存算分離的架構,雲海可為客戶節省整體基礎設施成本超 30%,現已在高效能運算、AI 訓練等新興場景以及影音儲存、資料報表等傳統場景中廣泛應用。 除了能夠優化底層資源,言犀AI 運算平台能夠幫助大模型開發者提高全鏈路效率提高,高效實現資料處理、模型開發、訓練、部署、評測以及訓練推理優化、模型安全等工作:
- #在資料管理環節,言犀能夠透過智慧標註模型、資料增強模型、資料轉換工具集,幫助模型開發者實現資料匯入、清洗、標註以及增強所有環節,支援多種檔案格式的資料匯入和智慧解析、提供自動、半自動的資料標註能力。協助解決資料環節儲存分散、資料格式不一、資料品質參差不齊、人工標註資料效率低等問題。
- 在分散式訓練環節,言犀平台適配國產硬件,支援HPC,整合高效能檔案系統;提供資源的分配調度策略,保證硬件資源被充分利用;提供統一的互動接口,簡化訓練任務的管理。幫助解決網路和演算法的複雜度快速成長,帶來運算資源的稀缺和浪費;HPC、高效能運算、高效能檔案系統、異質硬體的使用和適配困難;模型訓練的多樣性,訓練學習成本提高等問題。
- 無程式碼開發能力方面,則進一步簡化產大模型開發流程。使用者能夠直接選擇平台內建的大模型,上傳資料後,之後繼續選擇訓練方式,指定超參和 AutoML 兩種無程式碼訓練方式之一後,得到一個微調模型或應用。
- 在應用程式層,言犀平台內建了問答開發、文件分析開發、外掛程式開發等常用應用程式場景的無程式碼開發工具。選擇模型、知識庫、Prompt 模版以及開發平台後,一鍵部署。並且能夠支援監控、追蹤測試以及測試評估。
在整體上,言犀 AI 開發運算平台能夠滿足不同專業程度的使用者的使用需求。 對於大模型演算法開發者來說,能夠全流程支援從資料準備、選擇模型、程式碼調優、部署發布等工作。對於應用層開發者,能夠利用無程式碼的方式,視覺化點按選擇模型、上傳資料、配置參數,無需寫程式碼即可實現任務引發,開始模型任務的訓練,進而降低門檻。 在引入模型方面,目前平台已經內建了言犀、星火、LLama2 等商業模型以及開源模型。龔義成表示,言犀對模型的選擇思路更傾向於重視質量多過數量:選擇各個技術領域相對優秀的商業模型,以及一些圍繞基礎模型打造的行業模型,避免用戶陷入選擇焦慮。 並且,之後言犀將重點引入京東基於基礎模型打造的行業模型應用,如零售、健康場景以及在實際上已經實現規模化落地的行業應用模型放到平台上,幫助平台的開發者來推廣相關業務的落地。 目前言犀有三種方式交付方式:一是MaaS 服務形式,開發者開發者可以透過API 採用按量付費、成本經濟的方式探索和使用大模型;二是,公有雲SaaS 版,使用者可以透過平台提供的一站式模型開發、訓練和部署的能力,基於公有雲資源彈性供應的優勢,以最小化的成本啟動產業大模型的開發和部署。三是私有化交付版本,滿足對資料安全有更多特殊要求的客戶,資料完全在地化。未來,言犀也將持續升級平台能力,在國產硬體覆蓋、模型生態合作、外掛開發、應用評測服務、一體機交付、Agent 開發服務等面向繼續完善,體系化地幫助解決產業大模型的開發和實施困難、大模型應用的開發困難、模型訓練推理成本昂貴、模型和應用獲取困難、高性能計算、高性能文件、異構硬體的使用和適配困難等問題。 在西安城市大會上,京東集團技術委員會主席、京東雲事業部總裁曹鵬在演講中提到,在大模型逐漸向產業落地的過程中,希望做到提升更好的產業效率、產生更大的產業價值、能夠在更多的場景裡複製,實質上是對模型的訓練過程以及基礎設施提出了更高的要求:模型需要更加易用、要做到更低門檻更低成本、並且可以靈活調用算力。 AI 開發運算平台是解決這些問題的重要方案之一,一個高效能且易用的AI 開發運算平台能夠讓更多產業方低成本地參與到大模型產業建設當中來,激發更多產業大模型的出現,加速大模型在千行百業的落實。 在實際的市場中,龔義成稱,產業客戶在選擇 AI 運算平台時,主要會考慮的亮點分別是:產業理解以及平台效率。 相較於其他AI 運算平台,言犀AI 開發運算平台除了能提升極致的效能,還能夠結合京東長期以來在零售、金融、物流、健康等優勢場景的經驗,擁有更專業的產業大模型選擇。 在言犀AI 運算平台的模型生態中,除了內建優秀商業模式和開源模型,為了進一步降低門檻,言犀AI 運算平台還會為這些大模型補充進一步的增強能力,例如中文能力、數學能力等等,讓使用者可以選擇更容易使用專業的大模型。 更重要的是,由於言犀AI 開發運算平台同時面向大模型應用開發者,支援無程式碼的方式建構專有模型,除了上述基礎模型外,在言犀平台也將為用戶提供更多應用場景的專有模型,供用戶快速在自己的產業落地。 目前,言犀平台所提供的應用場景專有模型主要包括問答開發以及文件分析開發等成熟高頻場景。這些應用京東在自身的優勢領域已被多次驗證,結合大模型能夠快速提升效率。 以對話工具為例,2021 年起,名創優品和京東雲達成合作,將京東雲旗下言犀在客戶服務方面的系列技術產品應用在名創優品,涵蓋名創優品門市客服團隊、使用者營運團隊、IT 服務維運團隊。 2022 年 4 月,言犀系列產品陸續上線,包含了線上客服機器人、語音應答機器人、語音外呼機器人、智慧質檢、智慧知識庫等一系列智慧化產品,帶來了顯著的成效。 回饋數據顯示,目前言犀系列產品日均諮詢服務量近10000 次,其中線上客服機器人應答準確率超過97%,獨立接待率超過70% ,降低40% 的服務成本;語音應答機器人應答準確率超過93%,獨立處理了46。1% 的客戶問題;智能質檢累計完成數十萬次,發現並處理近3000 服務風險問題,用戶滿意度提升20%;智慧知識庫內容涵蓋了「名創優品」品牌下約8,800 個核心SKU,以及「TOP TOY」品牌下約4,600 個SKU。 在大模型的落地實作進程已經到了從單點向外普及的階段。 在產業中,還有許多類似名創優品的產業公司,對話機器人場景能為他們帶來更大的價值。而言犀AI 開發運算平台的推出,從底層算力、資料管理、無程式碼應用等全連結對產業公司的賦能,將為這些公司提供一個更低門檻更低成本、更短訓練週期的大模型產業化方案。可以預見,之後類似名創優品的案例將會出現得更頻繁。 此外,京東雲方面強調,相較於其他其他競品,京東言犀AI 計算平台採用的低程式碼方面進一步拉低了應用開發者的開發門檻,且高效能儲存方面完全自主、整體技術體系完整適配度高且效能效率高。 隨著新型數位基礎設施的普及,大模型在千行百業的落地將變得更加快速,成本效率與創新的不可能三角將擁有更開闊的想像空間。 以上是讓大規模模型近在咫尺,言犀 AI 開發運算平台正式推出的詳細內容。更多資訊請關注PHP中文網其他相關文章!