搜索
首页科技周边人工智能DeepSeek释放3FS和Shmperpond框架

DeepSeek Releases 3FS & Smallpond Framework

DeepSeek于2025年2月28日显着增强了开源功能,揭示了Fire-Flyer文件系统(3FS)和Smplearpond数据处理框架。 这些工具旨在彻底改变数据访问和处理,特别是用于AI培训和推断。

? #opensourceweek的第5天:3FS,所有DeepSeek数据访问的强大引擎

> fire-flyer文件系统(3FS) - 一个并行文件系统,最大化现代SSD和RDMA网络的带宽。

6.6 tib/s骨料读取吞吐量(180节点群集) ⚡3.66TIB/min…

- DeepSeek(@Deepseek_ai)2025年2月28日

目录的

>

> fire-flyer文件系统(3FS)

Shmperpond Framework
  • 快速启动:3FS和Smermpond
  • >故障排除和监视
  • 摘要
  • > fire-flyer文件系统(3FS)
  • 3FS是为现代SSD和RDMA网络构建的高性能,分布式文件系统。 它提供了强大的共享存储解决方案,简化了分布式应用程序开发。
  • 理解RDMA

远程直接内存访问(RDMA)绕过操作系统限制,从而在两台计算机的内存之间启用直接数据传输。这会导致更快,更有效的沟通。

键3FS功能

  • >无与伦比的性能和易用性:>
      6.6 tib/s骨料读取吞吐量(180节点群集)。
    • 3.66 tib/min吞吐量在Graysort基准(25节点群集)上。
    • > 40 GIB/S峰值吞吐量每个客户端节点for Kvcache查找。
  • >分解架构:
  • 将数千个SSD的吞吐量与数百个存储节点的网络带宽结合在一起。
      >为应用程序提供了局部性的存储访问。>
    • 鲁棒一致性:
  • >使用分配查询(CRAQ)采用链复制,以实现强大的一致性,简化了应用程序编码。
    • 标准文件接口:
  • >使用基于交易键值商店的无状态元数据服务(例如FoundationDB)。 维护熟悉的文件接口,消除了对新API学习的需求。
    • >支持的工作负载
  • 数据制备:
有效地管理数据分析管道中的大量中间输出。

>
    > dataLoader:
  • >启用跨计算节点训练样本的随机访问,消除预摘要或数据集随机改组。
  • >检查点:
  • 支持大规模训练的高通量平行检查点。 推理的
  • kvcache:
  • 提供了具有成本效益的高通量替代基于DRAM的基于DRAM的替代品,其容量显着增加。 >性能基准
  • 广泛的测试验证了3FS性能。 大型集群的读取压力测试即使在同时进行培训工作流量。 Shmperpond Framework 天文,旨在补充3FS,是一个轻巧的分布式数据处理框架。它使用DuckDB作为计算引擎,并在分布式文件系统(例如3FS)上以镶木格式存储数据。
  • 钥匙太理庞德特征

高性能: duckdb提供了用于有效数据处理的本地级别性能。>

可伸缩性:

通过高性能分布式文件系统处理PETABYTE尺度数据,而无需内存。

简单:

由于缺乏长期服务或复杂的依赖性而易于部署和维护。>>>>>>

    有效的数据处理:分类大数据集的两相方法可提高性能和效率(例如,在30分钟内的8,192个分区中排序110.5 TIB)。
  • 无缝3FS集成:利用3FS的高吞吐量和强大的一致性。
  • 快速启动:3FS和Smermpond 3fs安装
  • 克隆存储库并安装依赖项:
    1. git clone https://github.com/deepseek-ai/3fs
    2. cd 3fs
    3. git submodule update --init --recursive
    4. ./patches/apply.sh

    请咨询3FS文档以获取更多详细信息。

    天短快速启动

    • 确保安装Python 3.8。

    • >安装Skermpond:

      pip install smallpond

    • 初始化天简会:

      import smallpond; sp = smallpond.init()

    • >加载镶木木:

      df = sp.read_parquet("path/to/dataset/*.parquet")>

    • 重新分配数据(示例):

      • df = df.repartition(3)
      • df = df.repartition(3, by_row=True)
      • df = df.repartition(3, hash_by="host")
    • 变换数据(示例):

      • df = df.map('a b as c')
      • df = df.map(lambda row: {'c': row['a'] row['b']})
    • 保存数据:

      df.write_parquet("path/to/output/dataset.parquet")

    • 跑步的工作:

      sp.run(df)

    >故障排除和监视

    Smallpond提供监视和调试工具。日志分析有助于解决执行问题。 可以通过官方支持渠道获得全面的文档,教程和用例。

    摘要

    > 3FS和Smermpond的开源释放代表了数据处理的重大进步。他们的高性能,易用性以及一致性增强了开发人员和研究人员的能力。 这些工具为现代,数据密集型应用程序提供了强大的基础架构。

以上是DeepSeek释放3FS和Shmperpond框架的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
Sam俱乐部在AI上押注以消除收据检查并增强零售Sam俱乐部在AI上押注以消除收据检查并增强零售Apr 22, 2025 am 11:29 AM

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

Nvidia的AI Omniverse在GTC 2025扩展Nvidia的AI Omniverse在GTC 2025扩展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

下一波《 Genai:与Kirk Borne博士的观点》 -Analytics Vidhya下一波《 Genai:与Kirk Borne博士的观点》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

AI适合跑步者和运动员:我们取得了出色的进步AI适合跑步者和运动员:我们取得了出色的进步Apr 22, 2025 am 11:12 AM

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型Apr 22, 2025 am 11:10 AM

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

新的Google照片更新使任何具有Ultra HDR质量的照片流行新的Google照片更新使任何具有Ultra HDR质量的照片流行Apr 22, 2025 am 11:09 AM

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,

SQL中的TCL命令是什么? - 分析VidhyaSQL中的TCL命令是什么? - 分析VidhyaApr 22, 2025 am 11:07 AM

介绍 交易控制语言(TCL)命令在SQL中对于管理数据操纵语言(DML)语句的更改至关重要。 这些命令允许数据库管理员和用户控制事务过程

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器