多年來,電腦硬體一直是一個不太活躍的市場。主導的x86微處理器架構已經達到了透過小型化可以實現的效能增益的極限,因此製造商主要專注於將更多的核心封裝到晶片中。
對於快速發展的機器學習和深度學習來說,GPU就是救星。 GPU最初是為圖形處理設計的,它可以有數千個小內核,非常適合AI訓練所需的平行處理能力。
人工智慧的本質是得益於並行處理,大約10年前,人們發現,設計用於在螢幕上顯示像素的GPU很適合這一點,因為它們是並行處理引擎,可以在其中放入很多核心。
這對英偉達公司來說是個好消息,該企業的市值從2015年的不到180億美元飆升至去年市場收縮之前的7350億美元。直到最近,該企業幾乎獨攬了整個市場。但許多競爭對手正試圖改變這種局面。
在人工智慧工作負載方面,到目前為止主要是英偉達的GPU,但用戶正在尋找可以將其提升到新水平的技術,隨著高效能運算和AI工作負載的不斷融合,我們將會看到更多種類的加速器出現。
大型晶片製造商並沒有停滯不前。三年前,英特爾收購了以色列晶片製造商哈瓦那實驗室,並讓這項企業成為其人工智慧開發工作的重點。
哈瓦那去年春天推出的Gaudi2訓練優化處理器和Greco推理處理器,據稱速度至少是英偉達旗艦處理器A100的兩倍。
今年3月,英偉達推出了擁有800億個電晶體的H100加速器GPU,並支援該公司的高速NVLink互連。它具有一個專用引擎,與上一代相比,它可以將自然語言處理中,使用的基於Transformer的模型的執行速度提高六倍。最近使用MLPerf基準的測試顯示,在大多數深度學習測試中,H100優於Gaudi2。英偉達也被認為在其軟體堆疊中具有優勢。
許多用戶選擇GPU,因為他們可以進入集中式軟體的生態系統,英偉達之所以如此成功,是因為他們建立了生態系統策略。
超規模雲端運算公司甚至比晶片製造商更早進入這一領域。谷歌有限責任公司的Tensor處理單元是專用積體電路,於2016年推出,目前已經是第四代。亞馬遜網路服務公司在2018年推出了機器學習導向的推理處理加速器,聲稱其效能是GPU加速實例的兩倍以上。
上個月,該公司宣布了基於其Trainium晶片的雲端實例的普遍可用性,稱在深度學習模型訓練場景中,以可比的性能,它們的成本比基於GPU的EC2低50%。兩家企業的努力主要集中在透過雲端服務交付。
雖然成熟的市場領導者專注於漸進式改進,但許多更有趣的創新正在建立AI專用硬體的新創公司中進行。根據數據顯示,去年投資於晶片新創公司的18億美元創投家中,他們吸引了大部分的投資,是2017年的兩倍多。
他們正在追逐一個可能帶來巨大收益的市場,預計到2030年,全球人工智慧晶片市場將從2020年的80億美元增長到近1950億美元。
#很少有新創公司想要取代x86CPU,但這是因為這樣做的槓桿相對較小。晶片不再是瓶頸,不同晶片之間的通訊才是一個巨大的瓶頸。
CPU執行低階操作,如管理檔案和分配任務,但純粹的CPU專用方法不再適用於擴展,CPU設計用於從開啟檔案到管理記憶體快取的各種活動,必須是通用的。這意味著它不太適合人工智慧模型訓練所需的大規模平行矩陣算術運算。
市場上的大多數活動都圍繞著協處理器加速器、專用積體電路,以及在較小程度上可以針對特定用途進行微調的現場可編程閘陣列。
每個人都在遵循Google的說法,即開發協同處理器,與CPU協同工作,透過將演算法硬編碼到處理器中,而不是作為軟體運行,來針對AI工作量的特定部分。
加速度方程式用於開發所謂的圖形串流處理器,用於自動駕駛汽車和視訊監控等邊緣運算場景。完全可編程晶片組承擔了CPU的許多功能,但在任務級並行和流執行處理方面進行了最佳化,僅使用7瓦的電源。
體系結構是基於圖資料結構,其中物件之間的關係表示為連接的節點和邊。每個機器學習框架都使用圖形概念,在整個晶片的設計中都保持著相同的語意。可以執行包含CMM但包含自訂節點的整個圖。我們可以在這些圖形中加速任何平行的東西。
其基於圖形的架構解決了GPU和CPU的一些容量限制,並能更靈活地適應不同類型的AI任務。它還允許開發人員將更多的處理轉移到邊緣,以便更好地推斷。如果企業能對80%的處理過程進行預處理,就能節省大量時間和成本。
這些應用程式可以讓智慧更接近數據,實現快速決策。大多數的目標是推斷,這是AI模型的現場部署,而不是更計算密集型的訓練任務。
某家企業正在開發一種使用記憶體運算的晶片,以減少延遲和對外部儲存裝置的需求。其人工智慧平台將提供靈活性和運行多個神經網路的能力,同時保持較高的準確性。
其資料處理單元系列為大規模平行處理器陣列,擁有可伸縮的80核心處理器,能夠並行執行數十個任務。關鍵創新是在每個處理元素內部緊密整合一個張量協處理器,並支援元素之間的直接張量資料交換,以避免記憶體頻寬瓶頸。這可以實現高效的AI應用加速,因為預處理和後處理是在相同的處理元素上執行的。
而有些企業專注於利用縮圖大小的晶片組推斷深度學習模型,該企業稱該晶片組每秒可以執行26萬億次操作,而消耗的電力不到3瓦。在某種程度上,它是透過將用於訓練深度學習模型的每個網路層分解為所需的計算元素,並將它們整合在專門為深度學習構建的晶片上實現的。
板載記憶體的使用進一步減少了開銷,整個網路都在晶片內部,更沒有外部記憶體,這意味著晶片可以更小,消耗更少的能量。該晶片可在接近即時的高清影像上運行深度學習模型,使單一裝置能夠同時在四個車道上運行自動車牌識別。
一些新創公司採取的更多的是登月的方法,旨在重新定義人工智慧模型訓練和運作的整個平台。
例如,針對機器學習進行了最佳化的人工智慧處理器,在接近9,000個並發執行緒和900兆處理器內記憶體的情況下,每秒可以管理高達350萬億次處理作業。綜合計算系統被稱為Bow-2000IPU機器,據稱可以每秒進行1.4千萬億次運算。
其不同之處在於其三維堆疊晶片設計,使其能夠在一個晶片中封裝近1500個並行處理核。所有這些企業都能夠運行完全不同的業務。這與廣泛使用的GPU架構不同,後者更傾向於對大數據塊運行相同的操作。
再比如,有些企業正在解決互連問題,也就是積體電路中連接元件之間的佈線。隨著處理器達到理論上的最高速度,行動比特的路徑越來越成為瓶頸,特別是當多個處理器同時存取記憶體時,如今的晶片不再是互連的瓶頸。
該晶片在一個人工智慧平台中使用奈米光子波導,該平台稱其在低能量封裝中結合了高速和大頻寬。它本質上是一個光通訊層,可以連接多個其他處理器和加速器。
人工智慧結果的品質來自於同時支援非常龐大且複雜的模型的能力,同時實現非常高的吞吐量回應,這兩者都是可以實現的。這適用於任何可以使用線性代數完成的操作,包括大多數人工智慧的應用。
人們對其整合硬體和軟體平台的期望極高。而企業則抓住了這一要點,例如研發平台可以在從資料中心到邊緣的任何地方,運行人工智慧和其他資料密集型應用。
而硬體平台使用專為機器和深度學習設計的客製化7奈米晶片。其可重新配置的資料流架構運行AI優化的軟體堆疊,其硬體架構旨在最小化記憶體訪問,從而減少互連瓶頸。
處理器更是可以重新配置,以適應AI或高效能運算HPC工作負載,處理器被設計為以更高的效能等級處理大規模矩陣操作,這對工作量變化的客戶來說是一個加分項。
雖然CPU、GPU甚至FPGA都非常適合於事務系統和ERP等確定性軟體,但是,機器學習演算法是機率的,這意味著結果是不事先知道的,這需要一種完全不同的硬體基礎設施。
平台透過將1tb的高速雙資料速率同步記憶體連接到處理器上,最大限度地減少了互連問題,基本上可以用快20倍的片上記憶體來掩蓋DDR控制器的延遲,所以這對使用者來說是透明的,這使我們能夠訓練更高參數計數的語言模型和最高解析度的影像,而無需平鋪或下採樣。
平鋪是一種用於影像分析的技術,它透過將影像分割成更小的區塊,分析每個區塊,然後重新組合,來減少對運算能力的需求。下採樣在訓練資料的隨機子集上訓練模型,以節省時間和計算資源。其結果是一個系統,不僅比基於GPU的系統更快,而且能夠解決更大的問題。
由於許多企業都在為同樣的問題尋求解決方案,一場洗牌是不可避免的,但沒有人預計這種洗牌會很快到來。 GPU將存在很長一段時間,可能仍然是人工智慧訓練和推斷專案中最具成本效益的解決方案,而這些專案不需要極端效能。
儘管如此,隨著高階市場的模式越來越大、越來越複雜,對特定功能架構的需求也越來越大。從現在開始的三到五年內,我們可能會看到GPU和AI加速器的多樣性,這是我們能夠擴大規模以滿足本十年結束及以後需求的唯一途徑。
預計領先的晶片製造商將繼續做他們擅長的事情,並逐步建立現有的技術。許多企業也將效仿英特爾,收購專注於人工智慧的新創公司。高效能運算界也關注人工智慧的潛力,以幫助解決大規模模擬和氣候建模等經典問題。
高效能運算生態系統總是在尋找他們可以吸收的新技術,以保持領先地位,他們正在探索人工智慧能帶來什麼。而潛伏在幕後的是量子計算,這是一項仍停留在理論層面而非實際層面的技術,但它有可能徹底改變計算方式。
無論哪種新架構受到青睞,人工智慧的激增無疑已經重新點燃了人們對硬體創新潛力的興趣,從而開闢了軟體領域的新領域。
以上是人工智慧如何讓硬體發展的更好的詳細內容。更多資訊請關注PHP中文網其他相關文章!