首頁 >科技週邊 >人工智慧 >美國拿出26億美元搞人工智慧…預計6年內完成NAIRR建設

美國拿出26億美元搞人工智慧…預計6年內完成NAIRR建設

王林
王林轉載
2023-06-03 17:36:071287瀏覽

人工智慧是引領新一輪科技革命和產業變革的策略性技術。多項研究結果和數據表明,美國在人工智慧基礎科學研究、技術創新、產業應用等方面全球領先,人工智慧高水準論文、頂尖學者數量、人工智慧企業數量、投資規模等指標均領先其他國家。

美國政府高度重視人工智慧技術創新和發展。根據2020年美國《國家人工智慧倡議法案》(National AI Initiative Act of 2020),國會要求美國國家科學基金會(NSF)與白宮科學和技術政策辦公室(OSTP)組成工作小組,2023年1月研究制定美國國家人工智慧研究資源(NAIRR)基礎建設路線圖,鞏固美國在人工智慧領域的競爭優勢,擴大美國各方獲取人工智慧關鍵資源和教育資源的機會,進一步帶動美國人工智慧創新和經濟繁榮。

美國NAIRR建設的背景與意義

建設背景

美國政府認為其在人工智慧領域的領先優勢正在受到挑戰,競爭優勢有被削弱的風險,主要存在以下兩方面問題。一是人工智慧研發投資、教育資源分佈不平衡。研究數據顯示,從投資來看,2020至2021年美國來自私部門的人工智慧投資金額成長超過一倍,但新增人工智慧企業數量卻在下降;從人才來看,美國人工智慧博士畢業生的人口種族分佈、性別分佈與人口實際比例差異較大,將對人工智慧創新與發展產生限制。二是科研類機構可用算力資源和資料資源不足。從算力來看,目前最先進的算力平台由業界領先私人機構所有,科研機構缺乏支援人工智慧研發的算力平台;從資料資源來看,人工智慧模型訓練的主要資料資源由私人機構和大型互聯網平台所有,儘管美國政府持續開放數據,但對於人工智慧研究而言仍顯不足。

工作小組指出,缺乏充足的人工智慧研究資源將限制美國人工智慧創新生態,導致頂尖人才由學術研究機構向一小部分資源豐富的企業集中,此趨勢如長期形成將影響美國的競爭力與創新。 2023年1月,經過18個月公開徵集意見和討論,工作小組正式提出建設方案,擬申請26億美元建設及運維資金,計劃分四期,在6年內完成NAIRR建設工作,重點實現四大目標:匯聚資源促進研究創新、增強人才多元、提升基礎資源能力、促進可信賴人工智慧發展。

重要意義

NAIRR作為人工智慧研究基礎設施,面向美國研究院校、學生和非營利組織等機構開放,提供算力資源、高品質數據、教育工具等基礎研究資源,平台有望成為美國人工智慧研究合作的關鍵樞紐,鞏固其國際競爭優勢。

在生態建設方面,美國政府將依托NAIRR聯合政府內部相關部門和科研機構,共同進行人工智慧領域的合作研究、資源建設,形成廣泛的合作生態。 NAIRR服務和功能如圖1所示。

美國拿出26億美元搞人工智慧…預計6年內完成NAIRR建設

在數據方面,NAIRR將匯集聯邦政府部門數據,並且與產業界各類機構進行數據服務合作。一是促進人工智慧大規模資料資源的匯聚和開發利用,將匯聚、對接美國聯邦機構、學術科學研究機構和科技巨頭已開源且開放的大規模資料資源,成為美最大的人工智慧資料資源服務平台。如美國國立衛生研究院開放超過36PB基因定序數據,美國海洋與大氣管理局開放超過10PB天氣與環境數據。二是促進人工智慧資料管理和治理能力提升。人工智慧資料集具有高度碎片化特徵,每個資料集支撐對應專門任務和研究領域,資料標註、資料治理缺乏統一標準,資料管理難度高。 NAIRR將推動建立資料匯聚統一標準,規範資料描述格式,促進多方資料資源匯聚。三是推動多方協作的資料資源開發利用。營運實體將營運人工智慧資料集社區,激勵社區主動開發、建立有價值的資料資源,提供給NAIRR使用。營運實體也將提供資料搜尋服務,方便查詢聯邦機構開放資料和第三方服務商的資料資源。

在算力方面,NAIRR將聯合美國主要人工智慧運算雲端平台企業共同建置算力平台,計畫對接Google、微軟、亞馬遜等科技巨頭雲端平台,以及美國自然科學基金、美國國立衛生研究院等聯邦機構的雲端平台。平台為大學、研究機構、學生、新創公司提供不同等級的服務模式和內容,包含數據、算力、測試床、軟體工具等多種服務和資源。建成後NAIRR算力資源將包括至少支撐一兆參數規模機器學習模型訓練的超級計算機,以及雲端運算資源、CPU、GPU和高速網路。

NAIRR基礎設施建立並穩定運作後,一方面將不斷拓展與政府部門和私營機構的合作關係,擴展平台服務範圍和用戶範圍,宣傳成功經驗;另一方面,平台推進制定相關標準和規範,參與國際交流與合作,作為美國與其盟國、合作夥伴的基礎平台,促進合作研究、資料共享。

美國NAIRR建設方案

美國計畫透過系統性方法調動聯邦政府及私人機構共同協作,建立學術科研的人工智慧研究資源基礎設施。

一是規劃建構多方參與的平台治理體系。 NAIRR建議治理結構如圖2所示。方案建議建立政府部門多方參與的治理體系,成立指導委員會、管理委員會、專案管理辦公室、營運實體、顧問委員會等系列責任機構,協同合作。成立指導委員會,由聯邦政府各部門、機構代表組成,是國家層級對NAIRR進行總體規劃、制定策略目標的最高決策機構,代表各部門推動國家在人工智慧領域的資源投入。設立管理委員會負責對平台營運實體進行指導、管理,以及提供資金和相關資源。方案建議由NSF承擔管理委員會的職責。設立專案管理辦公室,配合指導委員會對營運實體進行日常性管理與評估。美國國會為專案管理辦公室批准資金,支援相關專案管理、入口網站開發和部署、聯合支援、培訓和使用者支援等費用。設立獨立於政府部門的營運實體機構,負責制定NAIRR具體發展目標、組織平台建置及日常營運管理,負責制定透明、公平且合理的資源分配製度,滿足各類人工智慧研究機構及使用者的使用需求。成立由多領域專家組成的科學委員會、技術委員會、倫理委員會、使用者委員會,為NAIRR建構提供決策支援。

美國拿出26億美元搞人工智慧…預計6年內完成NAIRR建設

二是為NAIRR基礎設施運作和建設提供專門資金。建設方案提出6年申請26億美元資金,其中22.5億美元用於向服務提供商採購平台算力、軟體工具和數據資源,運營機構日常費用為3.7億美元,此外3000萬美元用於基礎設施運行情況評估。聯邦機構中涉及人工智慧研發的均應參與NAIRR的專案管理。聯邦各部門在人工智慧領域的研發投資仍可由各機構獨自或合作採購、開發相應的資源,但應納入管理,並透過NAIRR基礎設施提供。

三是NAIRR基礎設施分階段建設,按需擴充算力資源,推動資料資源匯聚。平台建置分為專案啟動、建置、試運行及持續運作4個階段。試運行階段將可支援5萬用戶的規模,並能匯聚使用現有聯邦機構資料和私人機構資料。穩定運作後將支撐15萬用戶使用,建立更廣泛的數據資源合作社群。 NAIRR將透過制定資料匯聚標準、資料合作開發、提供資料搜尋服務等方式開發資料資源,方便資料利用。

新情勢下人工智慧基礎研究資源建構重要性癒發凸顯

目前,人工智慧新技術、新應用不斷湧現,以大型語言模型ChatGPT為代表的新一代人工智慧大模型的研究和訓練,需要更大規模算力資源和資料資源的支撐,且單次研發投入大幅成長。人工智慧大模型訓練的算力平台門檻極高,一般機構無法負擔巨額研發費用和營運費用。 OpenAI研究指出,人工智慧模型訓練所需的算力成長速度呈指數級增長,從2012年到2018年,訓練AI模型所消耗的算力增加了30萬倍。訓練GPT3所需的算力達到3640pfsday(即1PetaFLOP/s效率運作3640天),訓練成本預計達140萬美元/次,有機構估算ChatGPT初始投入成本約8億美元。

在人工智慧資料集方面,伴隨預訓練大模型的研究與發展,其訓練所需的資料集規模進一步大幅成長,資料規模從以前的百萬、千萬條,成長到上億條。目前大模型訓練所應用的資料集主要來自互聯網,包括維基百科、社交網站、公開期刊、書籍、論文、程式碼等方面的資料庫。有研究指出,「訓練資料將成為大模型產業化的最大掣肘之一。從更深層次考慮,大模型在訓練資料方面還存在各種治理問題,例如資料收集標註費時費力成本高、資料品質較難保障、資料多樣化不足難以涵蓋「長尾」和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護和數據偏見等問題。」國外學者研究認為,總體語言數據規模以7%的速度增長;高品質語言數據的成長受制於人口規模、經濟發展等因素影響,以4%~5%的速度成長。用於訓練大語言模型的高品質資料將會在2027年之前「耗盡」。

小結

算力和資料資源是人工智慧技術研究的基礎支撐要素。隨著人工智慧進入「大模型」時代,算力和資料能力成為演算法模型研究和訓練的限制因素。美國正在籌建的NAIRR基礎設施有利於解決目前人工智慧技術創新發展面臨的新挑戰,對我國具有一定的參考意義,我國應加強統籌協調,加速算力基礎設施與資料基礎資源建設,發展資料要素市場,鼓勵資料資源匯聚流通,推動人工智慧基礎技術研究與應用創新。

END

作者:中國資訊通訊研究院資料研究中心 陸亞鵬 汪衛國

責編/版式:蓋貝貝

#審核:舒文瓊

監製:劉啟誠

按讚和在看都在這裡

以上是美國拿出26億美元搞人工智慧…預計6年內完成NAIRR建設的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:sohu.com。如有侵權,請聯絡admin@php.cn刪除