搜尋
首頁科技週邊人工智慧Deepep在DeepSeek開源週的第2天發布

DeepSeek在這裡享有#opensourceweek的第2天,今天他們介紹了Deepep(用於Moe模型培訓和推理的開源EP通信庫。到目前為止,DeepSeek以及他們對OpenAI,Meta等十億美元模型的回答給我留下了深刻的印象。現在,他們正在探索AGI的構建基塊。通過5個存儲庫(2個已經發布),他們展示了對AI中透明度,社區合作和進步的承諾。

在DeepSeek的第1天團隊發行了FlashMLA,您可以在此處閱讀有關它的信息 - DeepSeek #opensourceweek第1天:發布FlashMLA。

今天,我們將詳細談論Deepep。

>

有效且優化的全能通信 NVLink和rdma

用於培訓和推理預填充
    的高通量內核 用於推理解碼的低延遲核
  • >本機FP8調度支持
  • >靈活的GPU資源控制用於計算 - 通信重疊
  • 目錄
  • deepep:優化的MOE通信庫和專家並行性
>為什麼deepSeek開放它?

  • 專家(MOE)的混合物(MOE)是什麼?型號
    • >> >如何開放deepep是一個改變遊戲規則的人及其提供的內容?推理解碼
    • 本機FP8調度支持
  • >
    • 靈活的GPU資源控制用於計算 - communication-communication重疊
    • > Deepep:MOE的優化通信庫和專家並行
    • Deepep是一個專門用於專家(MOE)和專家並行性(EP)的高性能通信庫。它具有高效的全能GPU內核(通常稱為Moe調度和組合),並延遲了出色的吞吐量和最小的延遲。此外,DEEPEP支持低精度計算,包括FP8,可確保深度學習工作負載的靈活性。
    • 為了補充DeepSeek-V3紙中引入的群體有限的門控算法,DeePep提供了針對不對稱構域帶寬轉發的專門內核。這些內核優化了不同硬件域之間的數據傳輸,例如NVLINK和RDMA,最大程度地提高了訓練和推理預填充任務的吞吐量。此外,該庫還包括用於管理流多處理器(SM)用法的內置控件。對於需要超低潛伏期的推理方案,尤其是在解碼期間,DEEPEP集成了一組專用的僅RDMA核心,以大大減少溝通延遲。此外,它採用基於創新的鉤子的方法與計算重疊的通信(無需消耗任何SM資源),以確保最佳效率。

      為什麼DeepSeek打開它?

      > DeepSeek開放源技術的決定是使每個人都可以訪問的尖端AI。通過分享其創新,它可以使開發商,研究人員和業務能夠在醫療保健,氣候科學或防禦方面(無論是在醫療保健,氣候科學中還是防禦),以突破界限並建立更高級的解決方案。開放訪問會促進協作加快突破性,並確保AI開發不限於少數。

      >

      > DEEPEP是“用於MOE模型培訓和推理的第一個開源EP通信庫”。

      和最好的部分? DeepSeek的工具可在GitHub上找到,使任何人都可以更輕鬆地探索,貢獻和完善技術。 現在,讓我們了解什麼是專家的混合物(MOE)>

      專家(MOE)的混合物是什麼?

      >模型的大小在確定其質量方面起著至關重要的作用。有了固定的計算預算,通常更有效地訓練更大的步驟,而不是以較小的步驟進行較小的模型。這是專家(MOE)

      混合的地方,它允許模型在優化計算效率的同時顯著擴展。 MOE是一種神經網絡體系結構,旨在通過在計算過程中僅選擇性激活參數的一部分來優化模型訓練和推斷。這樣可以使用更大的模型,而無需成比例的計算成本增加。 >MOE主要由兩個關鍵組件

      組成

      1. 稀疏的MOE層 - 這些取代了傳統的密集進料網絡(FFN)層。 MOE層不是單個FFN,而是由多個專家組成(例如,8個單獨的網絡)。每個專家都可以充當獨立的神經網絡,通常是FFN,但在某些情況下,這些專家可以是更複雜的結構,甚至是分層的MOE。
      2. >路由器或門網絡
      3. - 此機制確定將哪些令牌分配給了哪些專家。例如,在給定的序列中,一個令牌可能是針對專家2的,而另一個代幣由專家1處理。 MoE中的關鍵設計選擇是代幣如何在專家之間分發。路由機制受可學習的參數約束,這些參數與其他模型旁邊進行了訓練。
      4. MOE如何在變壓器模型中工作? 在標準變壓器模型中,每個令牌都是通過密集的FFN層處理的。但是,在MOE模型中,這些密集的FFN層被MOE層取代,由多個專家和門控機制組成。在推論和培訓期間,僅將這些專家的一部分激活,每個令牌都會降低整體計算,同時保持模型容量。 MOE模型的好處
      >

      與密集模型相比,

      > >有效預處理

      - 具有比較較低的計算要求的大型模型,使研究人員能夠更快地訓練模型而無需過多的硬件成本。

      更快的推理

      - 由於在任何給定時間僅使用模型參數的一部分,因此與同等總尺寸的密集模型相比,推理的效率要高得多。
        >
      • 可伸縮性 - MOE允許研究人員在與密集的模型相同的計算預算範圍內增加模型尺寸和數據集大小。
      • >專家(MOE)的混合物是有效地擴展變壓器模型的強大方法,使得可以以降低的計算成本來訓練大型模型。通過用稀疏的MOE層代替傳統密集的FFN層並利用路由機制,這些模型可實現高可擴展性並提高了推理速度。但是,權衡包括增加的記憶需求,訓練複雜性以及設計有效的路由策略的挑戰。隨著研究的繼續,基於MOE的架構可能在下一代AI模型中發揮重要作用。

        >開啟Deepep是一個改變遊戲規則的及其提供的產品?

        >

        1。有效,優化的全能通信

        為了有效地訓練和部署MOE模型,節點之間的無縫通信都是必不可少的,這都是一台計算機(Intranode)和跨多個計算機(Internode)(internode)的必不可少的。 DeePep通過高度優化的全部溝通來應對這一挑戰,確保快速有效的數據傳輸,最大程度地減少瓶頸和最大化性能。

        2。 Intranode和Interdode用NVLINK和RDMA

        > Deepep超出了基本通信,可以通過NVLink和RDMA(遠程直接內存訪問)等高級技術實現無縫的內模和Interdode連接。 NVLINK是NVIDIA的高速互連,可以加速節點內的數據交換,而RDMA最大程度地減少了跨節點傳輸的延遲,從而確保了大型AI系統的最佳性能。這些創新集體重新定義了效率,使DeePep成為下一代AI工作負載的強大企業。

        3。用於培訓和推理預填充

        的高通量內核 Deepep

        旨在有效地處理大規模數據。它的高速內核可以通過優化數據如何通過系統進行快速培訓。在推理預填充過程中,這些內核會迅速處理大批量,從而確保沒有瓶頸的表現順利有效。

        >

        4。推理解碼

        的低延遲核

        在實時預測方面,速度就是一切。 DeePep的低延遲內核在推理解碼過程中最大程度地減少了延遲,從而以最小的滯後響應提供了即時響應。這使其非常適合需要快速決策和無縫用戶體驗的應用程序。

        5。本機FP8調度支持

        Deepep以其內置的FP8(浮點8)支持而脫穎而出,這是一種提高速度並降低內存使用的尖端格式 - 完美地縮放AI模型。通過集成FP8,DeepSeek確保庫保持在不斷發展的AI硬件和算法之前。這意味著更快的培訓,較低的能源成本以及更有效的可持續人工智能開發途徑。

        6。用於計算通信重疊的柔性GPU資源控制

        DEEPEP通過啟用同時計算和數據傳輸,最大程度地減少停機時間並最大化性能來優化GPU的使用。它是大型AI項目的理想選擇,可幫助研究人員和企業節省時間和成本,同時有效地擴展。

        >

        >嘗試自己

        >>>訪問github存儲庫

        - 在github上查找Deepep的源代碼,文檔和示例以快速入門。

        >

        探索文檔 - 學習如何利用DEEPEP的關鍵功能,例如NVLink,RDMA和FP8,並逐步指導。

        >最後,您可以利用任何工具來測試和集成DEEPEP。

        結論

        DeepSeek在開源週的第2天發行了DeeDep。這是一個改變專家(MOE)模型培訓和推理的遊戲規則。 DeepSeek提供了高性能的開源EP通信庫。它提高效率,削減延遲並改善大規模AI工作負載的資源管理。 DEEPEP支持NVLINK,RDMA,FP8和無縫計算通信重疊。這使開發人員和研究人員有能力推進AI創新。 DeepSeek的開源承諾加快了AGI的進步。它使尖端的AI工具在全球範圍內更容易訪問。

        請繼續關注toanalytics vidhya博客,用於我們對DeepSeek的第3天發行的詳細分析!

以上是Deepep在DeepSeek開源週的第2天發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
商業領袖生成引擎優化指南(GEO)商業領袖生成引擎優化指南(GEO)May 03, 2025 am 11:14 AM

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE

該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥May 03, 2025 am 11:13 AM

2022年,他創立了社會工程防禦初創公司Doppel,以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓,Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快,更快,

世界模型如何從根本上重塑生成AI和LLM的未來世界模型如何從根本上重塑生成AI和LLM的未來May 03, 2025 am 11:12 AM

瞧,通過與合適的世界模型進行交互,可以實質上提高生成的AI和LLM。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括

2050年五月:我們要慶祝什麼?2050年五月:我們要慶祝什麼?May 03, 2025 am 11:11 AM

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭,而懷舊遊行則穿過城市街道。然而,慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C

您從未聽說過的DeepFake探測器準確是98%您從未聽說過的DeepFake探測器準確是98%May 03, 2025 am 11:10 AM

為了幫助解決這一緊急且令人不安的趨勢,在2025年2月的TEM期刊上進行了同行評審的文章,提供了有關該技術深擊目前面對的最清晰,數據驅動的評估之一。 研究員

量子人才戰爭:隱藏的危機威脅技術的下一個邊界量子人才戰爭:隱藏的危機威脅技術的下一個邊界May 03, 2025 am 11:09 AM

從大大減少制定新藥所需的時間到創造更綠色的能源,企業將有巨大的機會打破新的地面。 不過,有一個很大的問題:嚴重缺乏技能的人

原型:這些細菌可以產生電力原型:這些細菌可以產生電力May 03, 2025 am 11:08 AM

幾年前,科學家發現某些類型的細菌似乎通過發電而不是吸收氧氣而呼吸,但是它們是如何做到的,這是一個謎。一項發表在“雜誌”雜誌上的新研究確定了這種情況的發生方式:Microb

AI和網絡安全:新政府的100天估算AI和網絡安全:新政府的100天估算May 03, 2025 am 11:07 AM

在本週的RSAC 2025會議上,Snyk舉辦了一個及時的小組,標題為“前100天:AI,政策和網絡安全如何碰撞”,其中包括全明星陣容:前CISA董事Jen Easterly;妮可·珀洛斯(Nicole Perlroth),前記者和帕特納(Partne)

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)