一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

王林

Apr 13, 2023 am 08:49 AM

模型程式碼

12月2日，PyTorch 2.0正式發布！

這次的更新不僅將PyTorch的效能推到了新的高度，同時也加入了對動態形狀和分散式的支援。

此外，2.0系列也會將PyTorch的部分程式碼從C 移回Python。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

目前，PyTorch 2.0還在測試階段，預期第一個穩定版本會在2023年3月初面世。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

PyTorch 2.x：更快、更Python！

在過去的幾年裡，PyTorch從1.0到最近的1.13進行了創新和迭代，並轉移到新成立的PyTorch基金會，成為Linux基金會的一部分。

目前版本的PyTorch所面臨的挑戰是，eager-mode難以跟上不斷成長的GPU頻寬和更瘋狂的模型架構。

而PyTorch 2.0的誕生，將從根本上改變並提升了PyTorch在編譯器層級下的運作方式。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

眾所周知，PyTorch中的（Py）來自於資料科學中廣泛使用的開源Python程式語言。

然而，PyTorch的程式碼卻並沒有完全採用Python，而是把一部分交給了C 。

不過，在今後的2.x系列中，PyTorch專案團隊計畫將與torch.nn相關的程式碼移回Python中。

除此之外，由於PyTorch 2.0是一個完全附加的（和可選的）功能，因此2.0是100%向後相容的。

也就是說，程式碼庫是一樣的，API也是一樣的，寫模型的方式也是一樣的。

更快的訓練速度

透過引入新的編譯模式「torch.compile」，PyTorch 2.0用一行程式碼，就可以加速模型的訓練。

這裡不用任何技巧，只需執行torch.compile()即可，僅此而已：

opt_module = torch.compile(module)

為了驗證這些技術，團隊精心打造了測試基準，包括影像分類、物件偵測、影像生成等任務，以及各種NLP任務，如語言建模、問答、序列分類、推薦系統和強化學習。其中，這些基準可以分為三類：

來自HuggingFace Transformers的46個模型
來自TIMM的61個模型：Ross Wightman收集的最先進的PyTorch圖像模型
來自TorchBench的56個模型：github的一組流行程式碼庫

測試結果表明，在這163個跨越視覺、NLP和其他領域的在開源模型上，訓練速度得到了38%-76%的提升。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

在NVIDIA A100 GPU上的比較

此外，團隊還在一些流行的開源PyTorch模型上進行了基準測試，並獲得了從30%到2倍的大幅加速。

開發者Sylvain Gugger表示：「只要加入一行程式碼，PyTorch 2.0就能在訓練Transformers模型時實現1.5倍到2.0倍的速度提升。這是自混合精度訓練問世以來最令人興奮的事情！」

技術概述

PyTorch的編譯器可以分解成三個部分：

圖的取得
圖的降低
圖的編譯

#其中，在建構PyTorch編譯器時，圖的取得是更難的挑戰。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

TorchDynamo

今年年初，團隊便開始了TorchDynamo的工作，這種方法使用了PEP-0523中引入的CPython功能，稱為框架評估API。

為此，團隊採取了一種數據驅動的方法來驗證TorchDynamo在graph capture上的有效性——透過使用7000多個用PyTorch編寫的Github項目，來作為驗證集。

結果顯示，TorchDynamo在99%的時間裡都能正確、安全地進行graph capture，而且開銷可以忽略不計。

TorchInductor

對於PyTorch 2.0的新編譯器後端，團隊從使用者如何編寫高效能的自訂核心中得到了靈感：越來越多地使用Triton語言。

TorchInductor使用Pythonic定義的逐個循環層級的IR來自動將PyTorch模型對應到GPU上產生的Triton程式碼和CPU上的C /OpenMP。

TorchInductor的核心循環級IR只包含大約50個運算符，而且它是用Python實現的，這使得它很容易擴展。

AOTAutograd

想要加速訓練，不僅需要捕捉使用者級程式碼，還要捕捉反向傳播。

AOTAutograd可以利用PyTorch的torch_dispatch擴展機制來追蹤Autograd引擎，「提前」捕捉反向傳播，進而能夠使用TorchInductor來加速前向和後向通道。

PrimTorch

PyTorch有1200多個運算符，如果考慮到每個運算符的各種重載，則有2000多個個。因此，編寫後端或跨領域的功能成為一項耗費精力的工作。

在PrimTorch專案中，團隊定義了兩個更小、更穩定的運算子集：

Prim ops有大約~250個運算符，適合編譯器。由於足夠低級，因此只需將它們融合在一起以獲得良好的性能。
ATen ops有大約~750個典型的運算符，適合於原樣輸出。這些適合已經在ATen層級上整合的後端，或是沒有編譯的後端，從而恢復像Prim ops這樣的低階運算子集的效能。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

動態形狀

#在研究支援PyTorch程式碼通用性的必要條件時，一個關鍵要求是支援動態形狀，並允許模型接受不同大小的張量，而不會在每次形狀變化時引起重新編譯。

在不支援動態形狀的情況下，一個常見的解決方法是將其填入最接近的2次方。然而，正如我們從下面的圖表中所看到的，它產生了大量的效能開銷，同時也帶來了明顯更長的編譯時間。

現在，有了對動態形狀的支持，PyTorch 2.0也就獲得了比Eager高出了最多40%的性能。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

最後，在PyTorch 2.x的路線圖中，團隊希望在效能和可擴展性方面進一步推動編譯模式的發展。

一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

以上是一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc