DeepSeek的迅猛崛起,如同一颗璀璨的新星,不仅震撼了全球资本市场,更引发了业界对美国技术霸主地位的深刻反思。近日,这款由中国领先的量化私募机构幻方量化推出的AI应用,成功登顶美区及国内苹果App Store免费榜,将ChatGPT、谷歌Gemini、微软Copilot等一众美国生成式AI产品甩在身后。
DeepSeek的火爆,直接冲击了美国芯片股。在美股盘前交易中,AI芯片巨头英伟达股价暴跌超过12%,市值瞬间蒸发超4000亿美元,这一数字比AMD和英特尔的市值总和还要高出许多。与此同时,博通、台积电、阿斯麦、美光等芯片股也纷纷下挫。谷歌母公司Alphabet、meta、亚马逊等科技巨头同样未能幸免,股价均出现大幅下跌。A股AI算力指数也随之下跌,多家相关企业股价遭遇重创。
分析师指出,DeepSeek之所以能对美国股市构成如此大的威胁,是因为该公司以极低的价格构建了一个突破性的AI模型,且无需依赖最先进的芯片。这一成就引发了业界对数百亿美元资本支出的质疑,这些资金正被大量投入到AI芯片行业中。DeepSeek的成功,似乎预示着一种全新的AI发展模式,即高效算力调度和模型优化能力的重要性,远超单纯堆积硬件资源。
事实上,DeepSeek的崛起并非一蹴而就。自2024年5月发布DeepSeek-V2以来,凭借其创新的模型架构和极高的性价比,DeepSeek迅速赢得了市场的关注。该模型的推理成本极低,仅为开源大模型Llama3 70B的1/7、GPT-4 Turbo的1/70,这一优势引发了包括字节、阿里、百度等企业在内的模型降价风潮。而近一个月以来,随着新一代千亿参数规模的基座模型DeepSeek-V3及R1推理模型的相继发布,DeepSeek更是在海外市场声名鹊起。
DeepSeek-R1在Chatbot Arena综合榜单上位列第三,与OpenAI的顶尖推理模型o1并列,而其预训练费用仅为557.6万美元,仅为OpenAI GPT-4o模型训练成本的不到十分之一。这一成就不仅彰显了DeepSeek在模型训练成本上的巨大优势,更让业界看到了中国在AI技术领域的巨大潜力。
中国工程院院士、清华大学计算机系教授郑纬民认为,DeepSeek自研的MLA架构和DeepSeek MoE架构,为其模型训练成本的大幅降低起到了关键作用。这些创新架构不仅压缩了KV Cache大小,实现了存储效率的大幅提升,还配合FFN层的改造,构建了一个非常大的稀疏MoE层,从而实现了训练成本的大幅降低。
在算力、资金、芯片限制等外部挑战之下,中国大模型厂商纷纷寻求软件、算法等优化方案,以最大化算力利用效率。DeepSeek正是这一趋势的佼佼者,其高性价比模式让华尔街担忧GPU销量放缓,从而引发了对英伟达等芯片巨头市值的重新评估。彭博社分析称,DeepSeek在次先进的AI芯片上以更低成本的方式训练出有效的模型,这一成就挑战了“唯有美国科技巨头才能研发尖端AI”的普遍认知。
DeepSeek的崛起,不仅让中国AI技术在全球舞台上大放异彩,更让业界看到了“小而精”模式的巨大潜力。谭寅亮教授指出,DeepSeek的成功表明,在资源相对有限的情况下,通过高效的技术路径和精准的市场定位,同样可以取得快速突破。然而,他也强调,从长期来看,美国企业在“堆砌资源”方面的优势依然难以忽视。但DeepSeek的崛起无疑为业界带来了新的启示,即不同技术路线和市场策略的多样化竞争可能削弱“堆砌资源”模式的垄断性效应。
面对DeepSeek的强劲势头,美国科技巨头纷纷采取行动。OpenAI CEO奥尔特曼预告将推出ChatGPT免费套餐的o3-mini版本,以应对DeepSeek的竞争。meta则紧急成立多个作战小分队,拆解DeepSeek模型的技术秘诀。这些举措无疑表明了美国科技巨头对DeepSeek崛起的重视和警惕。
DeepSeek的创始人梁文锋,以其卓越的领导力和创新精神,引领着幻方量化在AI领域不断突破。他的成功不仅为中国AI技术的发展注入了新的活力,更为全球AI领域的竞争带来了新的格局。
在当前中美AI热潮下,DeepSeek无疑成为了关注的焦点。其克服算力限制瓶颈的成就,不仅让中国AI技术在全球舞台上崭露头角,更让业界看到了中美AI技术竞争的未来走向。随着DeepSeek等中国AI企业的不断崛起,中美AI技术的竞争将更加激烈和精彩。