中国蓝新闻近日报道,一个名为DeepSeek的开源大模型在杭州悄然崛起,其影响力迅速席卷了整个科技界。自上月以来,DeepSeek已官宣两大开源模型,被誉为“来自东方的神秘力量”。
1月27日,杭州见证了DeepSeek的又一次重大亮相。游戏科学创始人冯骥,同时也是热门游戏《黑神话:悟空》的出品人,在公开场合总结了DeepSeek的六大特点:强大、经济、开源、免费、联网、本土。他更断言,DeepSeek或将成为影响国家命运的科技成果。
DeepSeek的创新之处在于其对通用模型推理步骤的革新。传统上,模型推理能力的提升依赖于“监督微调”,类似于人类的填鸭式教育。然而,DeepSeek-R1直接跳过了这一环节,进入了“强化学习”阶段,探索无监督数据下的自我进化。通过要求模型写出思考过程,并利用“奖励”机制引导模型找到最佳方案,DeepSeek最终实现了模型的“顿悟”。
这一“顿悟”以及其他工程上的优化,证明了单纯依靠算力和数据堆叠的“大力出奇迹”并非通往通用人工智能(AGI)的唯一道路。当优雅的算法能够减少对算力的依赖时,全球算力是否存在过剩的问题,以及未来市场对算力的需求是否需要调整,成为近期全球资本市场动荡的根源。
DeepSeek的创始人梁文锋,是一个低调的80后极客。他出生于广东的一个五线城市,父亲是小学老师。梁文锋毕业于浙江大学,主修软件工程,人工智能方向。在创立DeepSeek之前,梁文锋和他的团队在金融领域已经取得了显著成就。幻方量化,DeepSeek的前身,在金融江湖中早已是成名已久的高手。2016年,幻方量化首次上线运行AI策略,2018年确立了成为AI科技公司的目标,最终在2023年7月,梁文锋在杭州创立了DeepSeek。
尽管DeepSeek至今没有融资,也没有接受任何巨头的投资,但他们却拥有国内最多的高性能GPU。这一基础得益于他们在量化投资领域的深耕。梁文锋透露,DeepSeek的研发团队只有139人,约为OpenAI的五分之一,其中包括约70名算法、推理框架、多模态等研发工程师及深度学习研究人员。他坚信,中国能够走出自己的科技模式,引领科技变革。