近期,杭州的AI创业公司DeepSeek凭借其开源模型DeepSeek-V3在业界引起了轩然大波。这款模型在各类基准测试中展现出了与付费版GPT-4o相当的性能水平,但其所依赖的训练成本却远低于后者。
尤为值得注意的是,DeepSeek-V3是在中国公司面临制裁、算力受限且无法购买足量显卡的背景下诞生的。通过采用小数据集蒸馏等创新方法,DeepSeek成功降低了模型训练的成本,其总训练成本仅为557.6万美元,相比之下GPT-4o等模型的训练成本高达1亿美元。因此,DeepSeek被形象地称为“AI界的拼多多”。
这一消息不仅挑战了“大模型的智能程度=英伟达提供的算力”这一传统认知,还在一定程度上影响了英伟达的股价。在消息传播的过程中,出现了一种有趣的“出口转内销”再传出的现象。国外媒体引述国内消息时,特别强调了DeepSeek对GPU需求降低的突破,这标志着美国对中国的AI封锁战略并未如愿,无需搭建大型GPU集群也能取得显著效果。这一观点在Twitter等社交媒体上被重新译介后,引起了硅谷业内人士的广泛关注。
与此同时,DeepSeek的团队成员也备受瞩目。此前,DeepSeek的前员工罗福莉加入小米的消息在业界流传甚广,尽管她早已自我官宣,但“95后天才少女”的称号无疑为这一消息增添了更多的话题性。这一事件不仅提升了小米的关注度,更从侧面证明了DeepSeek团队的实力和吸引力。
在DeepSeek出圈之前,AI业界对其评价颇高。尽管有人指出其训练数据集可能使用了ChatGPT的输出结果,但这一插曲并未影响DeepSeek的声誉。毕竟,如果仅凭ChatGPT的输出就能取得如此成果,那么任何人都可以尝试。事实上,谷歌也在采用类似的方法,其Gemini模型的事实核查人员是外包的,并允许他们借助其他模型生成的结果来核对答案。
在AI领域,提出新概念往往意味着巨大的商业机会。DeepSeek提出的“低成本训练”概念正是如此。与此类似,月之暗面(Kimi)因提出“超长文本(tokens)”概念而走红,并获得了大量的融资和关注。然而,随着时间的推移,Kimi的产品发布和创新能力逐渐放缓,其关注度也有所下降。这再次证明了新概念对于创业公司的重要性。
相比之下,DeepSeek凭借其低成本训练概念在业界崭露头角。如果今年各大厂商还在寻找新的投资标的,那么DeepSeek无疑是一个值得考虑的选择。毕竟,能够定义一个新概念并引领行业潮流的创业公司并不多见。对于DeepSeek来说,其未来的发展前景充满了无限可能。