DeepSeek近期在其官方社交媒体账号上发布了一项重大开源举措——3FS文件系统的问世,该系统被视为驱动DeepSeek所有数据访问的核心动力。
3FS,全称为Fire-Flyer文件系统,是一款专为现代SSD和RDMA网络环境设计的并行文件系统。它充分利用了这些高端硬件的全部带宽,为用户带来了前所未有的性能体验。
据DeepSeek介绍,3FS在性能上表现卓越。在180节点的集群环境中,其聚合读取吞吐量高达6.6TiB/s;而在25节点的集群中,GraySort基准测试的吞吐量更是达到了惊人的3.66TiB/分钟。每个客户端节点的KVCache查找峰值吞吐量也超过了40GiB/s。更为3FS采用了具有强一致性语义的分解架构,确保了数据的一致性和可靠性。
在V3/R1的应用场景中,3FS展现了其强大的实用价值。无论是训练数据的预处理、数据集的加载,还是检查点的保存与重新加载,3FS都能提供高效的支持。同时,在嵌入向量搜索和KVCache查找等推理任务中,3FS也展现出了出色的性能。
DeepSeek的这一开源举措,无疑将为大数据处理和人工智能领域带来新的突破。3FS的高效性能和稳定架构,将为数据科学家和工程师们提供更加便捷、高效的数据访问和处理工具,推动相关领域的快速发展。