DeepSeek近日在官方社交平台发布了一项重大决定,宣布将其核心组件3FS(Fire-Flyer 文件系统)全面开源。这一举措被视为DeepSeek在数据访问领域的一大推力器。
3FS,即Fire-Flyer 文件系统,是一种专为现代SSD和RDMA网络设计的高效并行文件系统。它能够充分利用这些先进硬件的全部带宽,实现卓越的数据处理能力。
据DeepSeek介绍,3FS在性能表现上尤为亮眼。在180节点的集群环境中,其聚合读取吞吐量高达6.6TiB/s;而在25节点的集群中,GraySort基准测试的吞吐量更是达到了惊人的3.66TiB/分钟。每个客户端节点的KVCache查找峰值吞吐量也超过了40GiB/s。更为先进的是,3FS采用了具有强一致性语义的分解架构,确保了数据的高可用性和一致性。
3FS在DeepSeek的V3/R1版本中发挥了关键作用。在训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索以及KVCache查找等推理过程中,3FS都提供了强有力的支持。这使得DeepSeek在处理大规模数据集时能够更加高效、稳定。
DeepSeek此次开源3FS,无疑将推动数据访问技术的发展和创新。对于广大开发者而言,这无疑是一个难得的机遇,可以深入研究和利用3FS的先进技术,进一步提升数据处理和应用性能。