ITBear旗下自媒体矩阵:

DeepSeek成本揭秘:大模型训练到底要花多少钱?

   时间:2025-02-19 11:51:38 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,全球科技界因DeepSeek而沸腾,这款AI模型的出现彻底颠覆了行业内的既有认知。

就在不久前,科技巨头马斯克携手其最新的“地球上最聪明的AI”——Gork 3,在直播中大放异彩。马斯克自信地宣称,Gork 3的推理能力已超越所有已知模型,并在推理测试时间上超越了DeepSeek R1和OpenAI的o1。与此同时,国民级应用微信也宣布接入了DeepSeek R1,并正在进行灰度测试。这一组合被视为AI搜索领域即将迎来巨变的前兆。

DeepSeek的热度不仅限于科技大厂。全球多家知名企业,如微软、英伟达、华为云、腾讯云等,都已纷纷接入。网友们更是脑洞大开,开发出了算命、预测彩票等新奇应用,这些热度直接转化为真金白银,推动了DeepSeek估值的一路飙升,最高时已达到千亿美金。

然而,DeepSeek之所以能够出圈,并非仅凭免费和好用。更重要的是,它以仅557.6万美元的GPU成本,就训练出了与OpenAI o1能力相当的DeepSeek R1模型。相比之下,过去几年的“百模大战”中,国内外AI大模型公司都投入了数十亿甚至上百亿美元。而马斯克为了打造“全球最聪明AI”Gork 3,更是耗费了20万块英伟达GPU,累计成本高昂。相比之下,DeepSeek的训练成本显得尤为低廉。

尽管如此,仍有团队在成本上向DeepSeek发起挑战。近日,李飞飞团队声称,他们仅以不到50美元的云计算费用,就训练出了一款在数学和编码能力测试中表现媲美OpenAI o1和DeepSeek R1的推理模型S1。但值得注意的是,S1是中型模型,与DeepSeek R1的上千亿参数级别相比,仍存在一定差距。

在DeepSeek的热度背后,人们不禁好奇,训练一个大模型究竟需要多少钱?它涉及哪些环节?为了解答这些问题,首先需要澄清一些误解。

DeepSeek并非只有一个模型,而是包含多个大模型,每个模型的功能各不相同。557.6万美元的成本,实际上是DeepSeek通用大模型V3训练过程中的GPU花费。而备受瞩目的推理大模型DeepSeek-R1,则以其强大的推理能力吸引了全球关注。

通用大模型与推理大模型在技术和应用上存在显著差异。通用大模型接收明确指令,基于概率预测快速给出答案;而推理大模型则接收简单明了的任务,通过链式思维推理得到答案。两者在训练数据上也有所不同,通用大模型是问题+答案,而推理大模型则是问题+思考过程+答案。

在推理大模型领域,DeepSeek-R1与OpenAI的o系列、Google的Gemini 2.0以及阿里的QwQ共同构成了第一梯队。尽管DeepSeek-R1在国内被视为顶尖模型,但从技术角度看,与OpenAI最新的o3仍存在一定差距。然而,DeepSeek-R1的出现大大缩小了国内外顶尖水平之间的差距。

在通用大模型领域,Google的Gemini、OpenAI的ChatGPT、Anthropic的Claude以及国内的DeepSeek和阿里的Qwen均位列第一梯队。每款大模型都有其独特的优劣势,DeepSeek也并非完美无缺。

关于训练大模型的成本,业界普遍认为,硬件、数据和人工是三大主要开销。不同公司在这些方面的投入方式各不相同,因此成本也存在较大差异。DeepSeek以557.6万美元的训练成本脱颖而出,但这仅为模型总成本的一小部分。考虑到服务器资本支出、运营成本等因素,DeepSeek的总成本可能在四年内达到25.73亿美元。

然而,即便按照这一数字计算,DeepSeek的成本也远低于其他大模型公司。DeepSeek不仅在模型训练阶段效率更高,在调用推理阶段也更为高效、成本更低。其API定价远低于OpenAI等竞争对手,使得中小企业也更容易接入。

DeepSeek之所以能够在降低成本方面取得显著成效,主要得益于其在模型结构、预训练和后训练等方面的优化。例如,DeepSeek采用了细粒度专家分割和共享专家隔离技术,提高了MoE参数效率和性能;在处理数据时使用了FP8低精度训练,提高了计算效率;在后训练中的强化学习上选择了GRPO算法,降低了算力要求;在推理层面上使用了多头潜在注意力机制,降低了显存占用和计算复杂度。

DeepSeek的降本不仅给从业者带来了技术上的启发,也影响了AI公司的发展路径。一些公司开始注重算法效率而非单纯追求算力军备竞赛,通过架构创新和工程化能力推出低成本高性能模型。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version