ITBear旗下自媒体矩阵:

中国大模型创业圈:DeepSeek之后,谁将是下一个技术引领者?

   时间:2025-02-09 20:16:37 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在DeepSeek引发的风暴之后,中国大模型创业领域正经历一场前所未有的变革。通过与多位行业专家的深入交流,笔者发现,当前国产大模型领域呈现出两种截然不同的态势。

一方面,那些积极融入DeepSeek生态的算力提供商、模型服务商,以及原本无法参与大模型“军备竞赛”的开源受益者,正满怀热情地拥抱这一变革。另一方面,以“大模型六小虎”为代表的其他中国大模型创业公司,以及过去两年投资了这些公司的风险资本(VC)们,则陷入了深深的忧虑之中,整个行业呈现出鲜明的“冰火两重天”景象。

“为何没能成为DeepSeek”,以及“为何中国只有一个DeepSeek”,这两个问题自春节以来就一直困扰着大模型从业者和VC们。这两个问题不仅触及了国内大模型创新的焦虑核心,也是探讨如何成为下一个DeepSeek的关键。

回顾过去四年中国大模型的发展历程,我们不禁要问:中国是否缺乏像DeepSeek这样的技术理想主义者?如果答案是否定的,那么这样的技术团队是否得到了充分的挖掘和社会系统性的支持?如果没有,原因何在?

2023年之前,中国仅有四家大模型公司:智谱、面壁、深言与聆心(后被智谱收购),且均出自清华大学。2023年之后,大模型创业公司激增至十余家,技术上的直接原因是Llama的开源,但更深层次的原因在于,当时普遍认为大模型的技术门槛虽高,但并非不可模仿,尤其是基于开源大模型,技术难度进一步降低,“技术不构成商业壁垒”的观点甚嚣尘上。

在这种共识下,2023年ChatGPT爆火后,中国大模型创业领域的动态呈现出一种畸形现象。智谱成为资本的宠儿,最早突破200亿人民币估值大关,而同样出自清华自然语言处理实验室(THUNLP)的面壁和深言,在资本市场的表现却远不如后来者。尤其是面壁智能,作为国内最早提出要做“平民版大模型”的公司,甚至比DeepSeek还早成立,但直到2024年年底完成一笔3亿人民币的融资后,估值仍不到35亿人民币。

据雷峰网AI科技评论与多位大模型投资人的交流,智谱与面壁在资本市场表现迥异的原因主要在于:清华学术派在投资大模型时往往只选择一家,且对教授创业持保留意见;智谱的愿景更易于理解,对外融资时提出“对标OpenAI”,VC立刻就能明白,而面壁一开始强调底层模型训练效率优化,在热钱最多的2023年一度被认为是一家类似潞晨、硅基的“AI Infra”公司。

2023年大模型浪潮来临后,中国的AI科技VC并未深入研究AGI技术,而是迅速将资金投向了“曾打过胜仗的连续成功创业者”,哪怕这些团队此前从未涉足大模型研发。光年之外与百川智能就是典型代表。当前估值超过200亿人民币的大模型公司中,只有智谱唐杰、月之暗面杨植麟等人是从2020年大模型未出圈时就开始技术探索的。

DeepSeek的研发团队同样是从零开始学习大模型技术,通过苦读论文、死磕实验,最终取得了显著成果。然而,从过去两年的行业发展来看,百川智能在基座模型上的升级并不频繁,重心转向医疗行业大模型。这种转变虽然对百川有利,但对整个大模型行业的发展贡献有限。

在资源有限的情况下,没有技术能力的团队占据大量资本资源,而有技术能力的团队却只能获得极少的资本支持,这种系统性错位注定会产生遗憾。如果AGI大模型技术已无上升空间,各家的技术壁垒逐渐拉平,那么互联网时代拼资源、拼资本的打法或许还能分到一杯羹。但对技术有敬畏之心的创业者始终保持清醒头脑,他们能看到现有大模型底层算法与架构在训练与推理中的不足,知道AGI仍有许多具体且高难度的问题要解决。

底层技术的持续创新能力仍是大模型公司的护城河,纯拼资源的互联网方法论暂不适用当前中国的大模型发展。一个不愿意学习技术的VC,比一个不愿意学习技术的研发团队所产生的杀伤力可能更大。

DeepSeek的成功不仅在于其过硬的技术实力,更在于其对AGI的纯粹追求。DeepSeek专注AGI研究,依托梁文锋个人与幻方量化的原有储备资金,没有向外融资。这种“自己有钱,所以不需要听外界的,自己想干什么就干什么”的自在,让DeepSeek能够专注于技术探索,不受外界干扰。

DeepSeek的成功或许无法复制,但其对人才的重视程度值得借鉴。DeepSeek的招聘门槛非常高,团队规模虽不大,但成员大多是原幻方的技术高手。他们不仅拥有顶尖的技术能力,更有着对技术的敬畏之心和好奇之心。DeepSeek的内部组织文化也非常扁平,只有一个老板:梁文锋。这种集权风格明显的扁平化管理,使得团队在遇到困难时能够自上而下协调资源,快速达到上传下达的效果。

梁文锋的个人风格也十分明显:有极强的技术信仰,对AGI有十足的好奇心与求知欲,并且十分刻苦。他说话非常简洁,但往往一针见血。这种对技术的执着和追求,正是DeepSeek能够取得成功的关键。

DeepSeek的成功不仅改变了VC对大模型公司的看法,更让整个行业意识到,AGI的实现仍需要理想主义。在DeepSeek之前,“北九坤、南幻方”已经在金融量化领域鼎鼎有名,而量化行业对技术人才的高要求也是众所周知的。DeepSeek的成功或许是一个偶然,但它所展现出的技术实力和创新能力,却为整个行业树立了榜样。

然而,DeepSeek的成功并非一蹴而就。在DeepSeek之前,也有许多团队在探索大模型技术,但大多未能取得显著成果。这并非因为这些团队缺乏技术能力或创新精神,而是因为他们未能像DeepSeek一样坚持对AGI的纯粹追求。许多团队在探索过程中逐渐转向短期商收或产品打磨,放弃了对AGI的长期投入。

这种转变不仅反映了市场对技术缺乏敬畏之心,也反映了创业公司在面对市场压力和资本诱惑时的无奈选择。然而,对于真正追求AGI的团队来说,这种转变是不可取的。他们必须坚定信念,继续投入资源和技术力量进行探索和创新。

事实上,除了DeepSeek之外,国内也有许多团队在坚持创新并不断探索新的解法来解决悬而未决的难题。例如香港大学计算与数据科学研究院院长马毅教授团队一直致力于研究可解释、可控制的人工智能算法与框架(白盒理论);智谱团队从2021年开始探索多模态大模型并遇到了许多问题;面壁团队则指出当前主流的大模型架构还无法很好地解决经验学习与空间记忆等关键问题。

随着具身智能的发展,AGI也将分为云端AGI与端侧AGI。这一趋势为AGI的发展提供了新的方向和挑战。要解决这些问题,不仅需要资源投入,更需要强烈的技术实力和技术愿景。DeepSeek的路径是从底层万卡集群、HAI框架向上贯穿构建环环相扣的技术体系。这种从底层到上层的全面布局和深入探索正是DeepSeek能够取得成功的关键所在。

在DeepSeek之后,中国的大模型创业领域将何去何从?这是一个值得深思的问题。但可以肯定的是,那些能够坚持对AGI的纯粹追求、拥有强大技术实力和创新能力的团队将更有可能成为下一个DeepSeek。而这些团队的成功也将为中国AI的崛起注入新的动力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version