不堆參數、不靠時長，Meta加速ViT訓練流程，吞吐量4倍提升-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

不堆參數、不靠時長，Meta加速ViT訓練流程，吞吐量4倍提升

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 09:21 AM

模型訓練

現階段，視覺transformer（ViT）模型已經在影像分類、目標偵測與分割等各樣各樣的電腦視覺任務中得到了廣泛應用，並可以在視覺表徵與識別中實現SOTA 結果。由於電腦視覺模型的表現往往與參數量和訓練時間呈正相關，AI 社群已經實驗了越來越大規模的 ViT 模型。

但應該看到，隨著模型開始超出萬億次浮點運算的規模，該領域已經遇到了一些主要的瓶頸。訓練單一模型可能耗費數月，需要數以千計的 GPU，進而增加了加速器需求並導致大規模 ViT 模型將許多從業者「排除在外」。

為了擴展 ViT 模型的使用範圍，Meta AI 的研究者已經開發了更有效率的訓練方法。非常重要的一點是對訓練進行最佳化以實現最佳的加速器利用。但是，這一過程耗時費力且需要大量的專業知識。為了設定有序的實驗，研究者必須從無數可能的最佳化方案中進行選擇：一次訓練過程中執行的百萬次運算中的任何一個都有可能受到低效率的影響和阻礙。

Meta AI 發現，透過將一系列最佳化應用到其影像分類程式碼庫 PyCls 中的 ViT 實現，可以提升運算和儲存效率。 對於使用 PyCIs 訓練的 ViT 模型，Meta AI 的方法可以提升訓練速度和每加速器吞吐量（TFLOPS）。

下圖展示了使用最佳化程式碼庫PyCIs 後每晶片（per chip）加速器吞吐量相較於V100 基準的相對增加，而A100 優化的加速器吞吐量是V100 基準的4.05 倍。

不堆參數、不靠時長，Meta加速ViT訓練流程，吞吐量4倍提升

運行原理

#Meta AI 首先對PyCIs 程式碼庫進行分析以確認低訓練效率的潛在來源，最終將注意力放在了數字格式的選擇上。在預設情況下，大多數應用使用 32-bit 單精度浮點格式來表徵神經網路值。轉換至 16-bit 半精度格式（FP16）可以減少模型的記憶體佔用和執行時間，但往往也會降低準確率。

研究者採取了折中方案，即混合精確度。利用它，系統透過單精度格式執行計算以加速訓練並減少記憶體使用，同時透過單精度儲存結果以保持準確率。他們沒有手動地將部分網路轉換至半精度，而是實驗了不同模式的自動混合精度訓練，這樣可以在數位格式之間自動切換。更高級模式的自動混合精度主要依賴半精度運算和模型權重。研究者採用的平衡設定既能大幅加速訓練，同時也不犧牲準確率。

為了讓流程更有效率，研究者充分利用了FairScale 庫中的完全分片資料並行（Fully Sharder Data Parallel, FSDP）訓練演算法，它在GPU 上對參數、梯度和優化器狀態進行分片。透過 FSDP 演算法，研究者可以使用更少的 GPU 來建立更大量級的模型。此外，研究者還使用了 MTA 優化器、一個池化的 ViT 分類器和一個 batch-second 輸入張量佈局來跳過冗餘轉置運算。

下圖 X 軸為可能的最佳化，Y 軸為採用 ViT-H/16 訓練時加速器吞吐量相較於分散式資料並行（DDP）基準的相對增加。

不堆參數、不靠時長，Meta加速ViT訓練流程，吞吐量4倍提升

研究者在總patch 大小為560 時實現了1.51 倍的加速器吞吐量提升，以每個加速器晶片上每秒執行的浮點運算數量衡量。透過將影像大小從 224 像素增加至 256 像素，他們可以將吞吐量提升至 1.86 倍。但是，改變影像大小意味著超參數的變化，這會對模型的準確率造成影響。在完全 FP16 模式下訓練時，相對吞吐量增加至 2.18 倍。儘管有時會降低準確率，但在實驗中準確率降低少於 10%。

下圖 Y 軸為 epoch 時間，在整個 ImageNet-1K 資料集上一次訓練的持續時間。這裡專注於現有配置的實際訓練時間，這些配置通常使用 224 像素的影像大小。

不堆參數、不靠時長，Meta加速ViT訓練流程，吞吐量4倍提升

Meta AI 的研究者使用最佳化方案，將 epoch 時間（在整個 ImageNet-1K 資料集上一次訓練的持續時間）從 0.65 小時減少到 0.43 小時。

下圖 X 軸表示特定配置中 A100 GPU 加速器晶片的數量，Y 軸表示每晶片 TFLOPS 的絕對吞吐量。

不堆參數、不靠時長，Meta加速ViT訓練流程，吞吐量4倍提升

該研究也討論了不同 GPU 配置的影響。在每種情況下，系統都實現了比分散式資料並行（DDP）基線水平更高的吞吐量。隨著晶片數量的增加，由於設備間通訊的開銷，我們可以觀察到吞吐量略有下降。然而，即使用 64 塊 GPU，Meta 的系統也比 DDP 基準快 1.83 倍。

新研究的意義

將ViT 訓練中可實現的吞吐量翻倍可以有效讓訓練集群規模翻倍，提高加速器利用率直接減少了AI 模型的碳排放。由於最近大模型的發展帶來了更大模型和更長訓練時間的趨勢，這種優化有望幫助研究領域進一步推動最先進的技術，縮短週轉時間並提高生產力。

以上是不堆參數、不靠時長，Meta加速ViT訓練流程，吞吐量4倍提升的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例