DeepSeek于2025年2月28日显着增强了开源功能,揭示了Fire-Flyer文件系统(3FS)和Smplearpond数据处理框架。 这些工具旨在彻底改变数据访问和处理,特别是用于AI培训和推断。
? #opensourceweek的第5天:3FS,所有DeepSeek数据访问的强大引擎> fire-flyer文件系统(3FS) - 一个并行文件系统,最大化现代SSD和RDMA网络的带宽。
6.6 tib/s骨料读取吞吐量(180节点群集) ⚡3.66TIB/min…
- DeepSeek(@Deepseek_ai)2025年2月28日
目录的
>
> fire-flyer文件系统(3FS)
- 快速启动:3FS和Smermpond
- >故障排除和监视
- 摘要
- > fire-flyer文件系统(3FS)
- 3FS是为现代SSD和RDMA网络构建的高性能,分布式文件系统。 它提供了强大的共享存储解决方案,简化了分布式应用程序开发。 理解RDMA
远程直接内存访问(RDMA)绕过操作系统限制,从而在两台计算机的内存之间启用直接数据传输。这会导致更快,更有效的沟通。
键3FS功能
-
>无与伦比的性能和易用性:
> - 6.6 tib/s骨料读取吞吐量(180节点群集)。
- 3.66 tib/min吞吐量在Graysort基准(25节点群集)上。
- > 40 GIB/S峰值吞吐量每个客户端节点for Kvcache查找。
>分解架构: -
将数千个SSD的吞吐量与数百个存储节点的网络带宽结合在一起。
- >为应用程序提供了局部性的存储访问。
- 鲁棒一致性:
> - >使用分配查询(CRAQ)采用链复制,以实现强大的一致性,简化了应用程序编码。
- 标准文件接口:
- >使用基于交易键值商店的无状态元数据服务(例如FoundationDB)。
维护熟悉的文件接口,消除了对新API学习的需求。
- >支持的工作负载
数据制备:
>
- > dataLoader:
- >启用跨计算节点训练样本的随机访问,消除预摘要或数据集随机改组。 >检查点:
- 支持大规模训练的高通量平行检查点。 推理的 kvcache:
- 提供了具有成本效益的高通量替代基于DRAM的基于DRAM的替代品,其容量显着增加。 >性能基准
- 广泛的测试验证了3FS性能。 大型集群的读取压力测试即使在同时进行培训工作流量。
Shmperpond Framework 天文,旨在补充3FS,是一个轻巧的分布式数据处理框架。它使用DuckDB作为计算引擎,并在分布式文件系统(例如3FS)上以镶木格式存储数据。 。 钥匙太理庞德特征
高性能:
可伸缩性:
通过高性能分布式文件系统处理PETABYTE尺度数据,而无需内存。 简单:由于缺乏长期服务或复杂的依赖性而易于部署和维护。>>>>>>
- 有效的数据处理:
-
无缝3FS集成:
利用3FS的高吞吐量和强大的一致性。 - 快速启动:3FS和Smermpond 3fs安装
- 克隆存储库并安装依赖项:
-
git clone https://github.com/deepseek-ai/3fs
-
cd 3fs
-
git submodule update --init --recursive
-
./patches/apply.sh
请咨询3FS文档以获取更多详细信息。
天短快速启动
-
确保安装Python 3.8。
- >安装Skermpond:
pip install smallpond
- 初始化天简会:
import smallpond; sp = smallpond.init()
- >加载镶木木:
df = sp.read_parquet("path/to/dataset/*.parquet")
> - 重新分配数据(示例):
-
df = df.repartition(3)
-
df = df.repartition(3, by_row=True)
-
df = df.repartition(3, hash_by="host")
-
- 变换数据(示例):
-
df = df.map('a b as c')
-
df = df.map(lambda row: {'c': row['a'] row['b']})
-
- 保存数据:
df.write_parquet("path/to/output/dataset.parquet")
- 跑步的工作:
sp.run(df)
Smallpond提供监视和调试工具。日志分析有助于解决执行问题。 可以通过官方支持渠道获得全面的文档,教程和用例。
摘要 -
以上是DeepSeek释放3FS和Shmperpond框架的详细内容。更多信息请关注PHP中文网其他相关文章!

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,

介绍 交易控制语言(TCL)命令在SQL中对于管理数据操纵语言(DML)语句的更改至关重要。 这些命令允许数据库管理员和用户控制事务过程


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Atom编辑器mac版下载
最流行的的开源编辑器