搜尋
首頁科技週邊人工智慧DeepSeek釋放3FS和Shmperpond框架

DeepSeek Releases 3FS & Smallpond Framework

DeepSeek於2025年2月28日顯著增強了開源功能,揭示了Fire-Flyer文件系統(3FS)和Smplearpond數據處理框架。 這些工具旨在徹底改變數據訪問和處理,特別是用於AI培訓和推斷。

? #opensourceweek的第5天:3FS,所有DeepSeek數據訪問的強大引擎

> fire-flyer文件系統(3FS) - 一個並行文件系統,最大化現代SSD和RDMA網絡的帶寬。

6.6 tib/s骨料讀取吞吐量(180節點群集) ⚡3.66TIB/min…

- DeepSeek(@Deepseek_ai)2025年2月28日

目錄的

>

> fire-flyer文件系統(3FS)

Shmperpond Framework
  • 快速啟動:3FS和Smermpond
  • >故障排除和監視
  • 摘要
  • > fire-flyer文件系統(3FS)
  • 3FS是為現代SSD和RDMA網絡構建的高性能,分佈式文件系統。 它提供了強大的共享存儲解決方案,簡化了分佈式應用程序開發。
  • 理解RDMA

遠程直接內存訪問(RDMA)繞過操作系統限制,從而在兩台計算機的內存之間啟用直接數據傳輸。這會導致更快,更有效的溝通。

鍵3FS功能

  • >無與倫比的性能和易用性:>
      6.6 tib/s骨料讀取吞吐量(180節點群集)。
    • 3.66 tib/min吞吐量在Graysort基準(25節點群集)上。
    • > 40 GIB/S峰值吞吐量每個客戶端節點for Kvcache查找。
  • >分解架構:
  • 將數千個SSD的吞吐量與數百個存儲節點的網絡帶寬結合在一起。
      >為應用程序提供了局部性的存儲訪問。 >
    • 魯棒一致性:
  • >使用分配查詢(CRAQ)採用鏈複製,以實現強大的一致性,簡化了應用程序編碼。
    • 標准文件接口:
  • >使用基於交易鍵值商店的無狀態元數據服務(例如FoundationDB)。 維護熟悉的文件接口,消除了對新API學習的需求。
    • >支持的工作負載
  • 數據製備:
有效地管理數據分析管道中的大量中間輸出。

>
    > dataLoader:
  • >啟用跨計算節點訓練樣本的隨機訪問,消除預摘要或數據集隨機改組。
  • >檢查點:
  • 支持大規模訓練的高通量平行檢查點。 推理的
  • kvcache:
  • 提供了具有成本效益的高通量替代基於DRAM的基於DRAM的替代品,其容量顯著增加。 >性能基準
  • 廣泛的測試驗證了3FS性能。 大型集群的讀取壓力測試即使在同時進行培訓工作流量。 Shmperpond Framework 天文,旨在補充3FS,是一個輕巧的分佈式數據處理框架。它使用DuckDB作為計算引擎,並在分佈式文件系統(例如3FS)上以鑲木格式存儲數據。
  • 鑰匙太理龐德特徵

高性能: duckdb提供了用於有效數據處理的本地級別性能。 >

可伸縮性:

通過高性能分佈式文件系統處理PETABYTE尺度數據,而無需內存。

簡單:

由於缺乏長期服務或複雜的依賴性而易於部署和維護。 >>>>>>

    有效的數據處理:分類大數據集的兩相方法可提高性能和效率(例如,在30分鐘內的8,192個分區中排序110.5 TIB)。
  • 無縫3FS集成:利用3FS的高吞吐量和強大的一致性。
  • 快速啟動:3FS和Smermpond 3fs安裝
  • 克隆存儲庫並安裝依賴項:
    1. git clone https://github.com/deepseek-ai/3fs
    2. cd 3fs
    3. git submodule update --init --recursive
    4. ./patches/apply.sh

    請諮詢3FS文檔以獲取更多詳細信息。

    天短快速啟動

    • 確保安裝Python 3.8。

    • >安裝Skermpond:

      pip install smallpond

    • 初始化天簡會:

      import smallpond; sp = smallpond.init()

    • >加載鑲木木:

      df = sp.read_parquet("path/to/dataset/*.parquet")>

    • 重新分配數據(示例):

      • df = df.repartition(3)
      • df = df.repartition(3, by_row=True)
      • df = df.repartition(3, hash_by="host")
    • 變換數據(示例):

      • df = df.map('a b as c')
      • df = df.map(lambda row: {'c': row['a'] row['b']})
    • 保存數據:

      df.write_parquet("path/to/output/dataset.parquet")

    • 跑步的工作:

      sp.run(df)

    >故障排除和監視

    Smallpond提供監視和調試工具。日誌分析有助於解決執行問題。 可以通過官方支持渠道獲得全面的文檔,教程和用例。

    摘要

    > 3FS和Smermpond的開源釋放代表了數據處理的重大進步。他們的高性能,易用性以及一致性增強了開發人員和研究人員的能力。 這些工具為現代,數據密集型應用程序提供了強大的基礎架構。

以上是DeepSeek釋放3FS和Shmperpond框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石Apr 22, 2025 am 11:48 AM

自2008年以來,我一直倡導這輛共享乘車麵包車,即後來被稱為“ Robotjitney”,後來是“ Vansit”,這是城市運輸的未來。 我預見這些車輛是21世紀的下一代過境解決方案Surpas

Sam俱樂部在AI上押注以消除收據檢查並增強零售Sam俱樂部在AI上押注以消除收據檢查並增強零售Apr 22, 2025 am 11:29 AM

革新結帳體驗 Sam's Club的創新性“ Just Go”系統建立在其現有的AI驅動“掃描和GO”技術的基礎上,使會員可以在購物旅行期間通過Sam's Club應用程序進行掃描。

Nvidia的AI Omniverse在GTC 2025擴展Nvidia的AI Omniverse在GTC 2025擴展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增強可預測性和新產品陣容 NVIDIA是AI基礎架構的關鍵參與者,正在專注於提高其客戶的可預測性。 這涉及一致的產品交付,達到績效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:強大,高效的語言模型 Google的Gemma語言模型家族以效率和性能而慶祝,隨著Gemma 2的到來而擴展。此最新版本包括兩種模型:270億個參數VER

下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics Vidhya下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

這一領先的數據劇集以數據科學家,天體物理學家和TEDX演講者Kirk Borne博士為特色。 Borne博士是大數據,AI和機器學習的著名專家,為當前狀態和未來的Traje提供了寶貴的見解

AI適合跑步者和運動員:我們取得了出色的進步AI適合跑步者和運動員:我們取得了出色的進步Apr 22, 2025 am 11:12 AM

這次演講中出現了一些非常有見地的觀點——關於工程學的背景信息,這些信息向我們展示了為什麼人工智能如此擅長支持人們的體育鍛煉。 我將從每位貢獻者的觀點中概括出一個核心思想,以展示三個設計方面,這些方面是我們探索人工智能在體育運動中應用的重要組成部分。 邊緣設備和原始個人數據 關於人工智能的這個想法實際上包含兩個組成部分——一個與我們放置大型語言模型的位置有關,另一個與我們人類語言和我們的生命體徵在實時測量時“表達”的語言之間的差異有關。 Alexander Amini 對跑步和網球都很了解,但他還

傑米·恩格斯特羅姆(Jamie Engstrom)關於卡特彼勒的技術,人才和轉型傑米·恩格斯特羅姆(Jamie Engstrom)關於卡特彼勒的技術,人才和轉型Apr 22, 2025 am 11:10 AM

卡特彼勒(Caterpillar)的首席信息官兼高級副總裁傑米·恩格斯特(Jamie Engstrom)領導了一支由28個國家 /地區的2200多名IT專業人員組成的全球團隊。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

新的Google照片更新使任何具有Ultra HDR質量的照片流行新的Google照片更新使任何具有Ultra HDR質量的照片流行Apr 22, 2025 am 11:09 AM

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增強照片,將標準圖像轉換為充滿活力的高動態範圍傑作。對於社交媒體而言,此工具可提高任何照片的影響,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具