Nvidia近日宣布推出一款名為TensorRT-LLM的新開源軟體套件,擴展了Nvidia GPU上大型語言模型優化的功能,並突破了部署之後人工智能推理性能的極限。
生成式AI大語言模型因其令人印象深刻的功能而變得流行。它擴大了人工智慧的可能性,並廣泛應用於各個行業。用戶可以透過與聊天機器人對話來獲取信息,總結大型文檔,編寫軟體程式碼,以及發現理解資訊的新方法
Nvidia公司超大規模和高效能運算副總裁Ian Buck表示:「大型語言模型推理變得越來越難。個GPU上運行的時候,就成了一大難題。提供建議或回答問題,是大型語言模型的主力。
隨著模型生態系的快速擴展,模型變得越來越龐大,功能也越來越豐富。這也意味著模型變得如此龐大,無法在單一GPU上同時運行,必須進行分割。開發人員和工程師必須手動分配和協調工作負載,以即時獲得回應。 TensorRT-LLM透過實現「張量並行性」來解決這個問題,允許在多個GPU上進行大規模高效的推理
除此之外,由於當今市場中有各種各樣的大型語言模型,所以Nvidia針對目前主流的大型語言模型對核心進行了最佳化。該軟體套件包括了完全優化的、可立即運行的大型語言模型版本,包括Meta Platform的Llama 2、OpenAI的GPT-2和GPT-3、Falcon、MosaicMPT和BLOOM。
應對動態工作負載的「運行中批次」機制
為了回應這些不同的工作負載,TensorRT-LLM引入了一種稱為「運行中批次」的機制,這是一個最佳化調度的過程,把文字產生過程分解為多個片段,以便可以將移入或移出GPU,這樣在開始新一批之前就不需要完成整批工作負載了。
以前,如果有大型請求的話,例如對非常大的文檔進行摘要提取,那麼後面所有的內容都必須等待該過程完成才能使隊列繼續前進。
Nvidia一直在與眾多廠商合作優化TensorRT-LLM,包括Meta、Cohere、Grammarly、Databricks和Tabnine。在他們的幫助下,Nvidia不斷簡化軟體套件中的功能和工具集,包括開源Python應用使用者介面,用於定義和最佳化新架構以自訂大型語言模型。
舉個例子,當MosaicML將TensorRT-LLM與其現有軟體堆疊整合時,在TensorRT-LLM的基礎上增加了額外的功能。 Databricks公司工程副總裁Naveen Rao表示,這個過程非常簡單
「TensorRT-LLM易於使用,功能豐富,包括令牌流、動態批次、分頁注意力、量化等,而且效率很高,為使用NVIDIA GPU的大型語言模型服務提供了最佳效能,並使我們能夠將節省的成本回饋給我們的客戶。批次功能)可以將使用Nvidia H100進行文章摘要提取的推理性能提高超過1倍。使用GPT-J-6B模型對CNN/每日郵報文章摘要進行A100測試時,僅使用H100的速度比A100快4倍,而啟用TensorRT-LLM優化後,速度提升了8倍
TensorRT-LLM為開發人員和工程師提供了深度學習編譯器、優化的大型語言模型核心、預處理和後處理、多GPU/多節點通訊功能、以及簡單的開源API,使他們能夠快速優化和執行大型語言模型生產的推理。隨著大型語言模型繼續重塑資料中心,企業需要更高的效能就意味著開發人員比以往任何時候都更需要能夠為他們提供具備功能和存取權限的工具,以提供更高效能的結果。
TensorRT-LLM軟體套件現已可供Nvidia開發人員計畫中的開發人員搶先體驗,並將於下個月整合到用於生產型AI端到端軟體平台Nvidia AI Enterprise的NeMo框架中。 TensorRT-LLM軟體套件已經發布,供Nvidia開發人員計劃中的開發人員提前體驗,並將在下個月整合到Nvidia AI Enterprise的NeMo框架中,用於生產型AI端到端軟體平台
以上是Nvidia發表TensorRT-LLM開源軟體 提升高階GPU晶片上的AI模型效能的詳細內容。更多資訊請關注PHP中文網其他相關文章!