滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

大模型遇瓶颈，厂商探索推理层新路径，Scaling Law将如何演进？

时间：2024-11-22 20:06:14 来源：ITBEAR作者：钛媒体APP编辑：瑞雪 发表评论无障碍通道

【ITBEAR】近期，关于人工智能领域中的Scaling Law是否已失效的争论愈演愈烈，引发了业界的广泛关注。

这一争议的起因源自多家权威媒体的报道。The Information率先披露，OpenAI的内部消息显示，其GPT系列模型的更新速度明显放缓。据悉，即将推出的新一代旗舰模型Orion，虽然在性能上有所提升，但并未实现如GPT-3到GPT-4那样的质的飞跃。OpenAI因此正在调整其发展战略。

随后，路透社也发表文章指出，由于当前的方法论遭遇瓶颈，OpenAI以及其他多家AI公司正在积极寻找通往更智能AI的新途径。紧接着，彭博社的报道进一步加剧了这一争议，称OpenAI、谷歌和Anthropic三家AI公司在开发新模型上的投入与回报之间的差距正在不断扩大，其中谷歌即将推出的新版Gemini模型并未达到内部预期，而Anthropic则推迟了备受瞩目的Claude 3.5 Opus版本的发布。

尽管随后OpenAI的创始人山姆·奥特曼和微软AI主管Mustafa Suleyman纷纷出面否认存在放缓的情况，但不可否认的是，模型界的“三巨头”在预训练方面确实遇到了前所未有的挑战。这不禁让人质疑，Scaling Law的边界是否已经悄然到来？

Scaling Law，也被称为尺度定律，一直被视为大模型预训练的第一性原理。2020年，OpenAI发布的论文首次揭示了模型参数量、数据集大小和训练计算量之间的幂律关系，这一发现为大模型的快速发展奠定了理论基础。从GPT-3到GPT-4，再到Gemini和Claude，Scaling Law的“暴力美学”一次次被验证。

然而，随着模型参数的不断增加，对数据量的需求也呈现指数级增长。人类互联网产生的数据正在被大模型迅速“吞噬”，而高质量文本数据的稀缺性更是成为了制约模型进一步发展的关键因素。The Information指出，OpenAI在训练下一代ChatGPT 5时就遭遇了数据瓶颈，Orion模型在预训练阶段只用了20%的训练量就达到了GPT-4的水平，但后续增加训练量对模型性能的提升却微乎其微。

谷歌和Anthropic同样面临着这一困境。谷歌的Gemini模型表现不佳，Anthropic则推迟了Claude 3.5 Opus的发布。在国内，也有多家AI初创公司和大厂开始转向应用层，减少对预训练模型的投入。这从侧面印证了Scaling Law目前所面临的困境。

除了数据稀缺性，大模型预训练过程中的算力、电力等能源消耗以及高昂的成本也成为制约其发展的因素。OpenAI的研究者Noam Brown曾公开表示，更先进的模型可能在经济上不可行。超大规模语言模型的预训练过程极其耗费资源，单次训练成本可达数千万至数亿美元，而性能提升却十分有限。

面对这一困境，业界开始寻找新的扩展定律。事实上，目前讨论的Scaling Law撞墙更多是指预训练扩展定律（Pre-training Scaling Law）。而后训练扩展定律（Post-training Scaling Law）和推理扩展定律（Inference Scaling Law）则关注如何在模型训练完成后，通过增加推理阶段的计算量来提升模型性能。

OpenAI推出的O1推理模型正是基于这一思路。通过在推理阶段增加计算资源和时间，O1模型能够智能地分配计算资源，提供更准确和高效的答案。微软CEO萨蒂亚·纳德拉也在微软Ignite大会上表示，看到了“测试时计算”新的扩展规律的出现，并指出微软Copilot的“深入思考”功能也是利用这一规律来解决更难的问题。

国内企业也纷纷跟进。DeepSeek推出了全新的推理模型DeepSeek-R1-Lite-Preview，性能直逼O1。DeepSeek-R1在数学和编程方面表现出色，甚至在一些竞赛中领先O1。其背后的关键技术就是超长推理时间和强化学习。

月之暗面也在其成立一周年之际公布了数学模型k0-math的进展情况。k0-math同样采用了强化学习和思维链推理技术，展现了强大的推理能力。阿里、昆仑万维等国内企业也上线了相关的推理大模型产品。

随着技术的不断发展，业界正在从预训练向推理层转向，寻找新的Scaling Law。尽管短期内可能会遇到技术瓶颈和成本效益比下降的问题，但从长远来看，AI的软硬件能力仍然会呈指数增长，通过多种创新路径共同推动AI技术的快速发展。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

英伟达利润暴增，AI芯片需求热潮能否持续引领科技新篇章？

11-22

苹果2026年将推全新Siri，对话能力飞跃挑战ChatGPT？

三言科技11月22日消息，据知情人士爆料，苹果公司正全力打造一款对话能力实现质的飞跃的Siri数字助理，旨在与OpenAI的ChatGPT以及其他领先语音服务一较高下。这款仍处于高度保密研发阶段、细节尚未公开…

11-22

跨境电商新风口！超30亿资金涌入，哪些概念股成香饽饽？

11-22

A股收跌超3%！盘面热点散乱，哪些板块逆势上扬？

11-22

新壹科技获互联网大会大奖，AI大模型如何助力金融行业智慧升级？

11-22

每日互动营销数盘升级，助力品牌破解存量时代营销难题

11-22

数字化微创介入新时代：海信医疗引领超声手术室智能化升级

11-22

AI搜索能否破局？传统搜索引擎的未来之路仍显漫长

生成式AI的诞生，给了传统搜索引擎更沉重一击，人们不再需要在搜索结果中，寻找所需信息，AI已可以通过自然对话方式，代替思考，提供答案。 2023年8月，昆仑万维推出了国内第一款AI搜索引擎，2个月后，百度也…

11-22

久其软件天津新设公司，经营范围涵盖AI软件开发与销售

11-22

浪潮云图安世纪展应急创新，海若大模型助力安全管理提效

11-22

交通新能源低空融合论坛：共绘绿色创新交通新蓝图

11-22

Arm全新终端计算子系统，能否引领移动端AI体验革新？

11-22

蜜度双大模型闪耀2024人工智能案例集，赋能政务传媒新篇章

11-22

儿童成长陪伴师火了，但专家强调：亲子陪伴仍是孩子成长的“必需品”

11-22

奇安信乌镇展AI安全新品，“机器人军团”引领安全运营新纪元

11-22

点击查看更多 +

全站最新

永生：天堂还是地狱？一场关于生命无尽的辩论

遥感卫星创新成果大揭秘，星图云开放平台助力千行百业

仁神星掩星即将上演，御夫座恒星将短暂“隐身”奇观

中国载人航天新进展：空间站稳定运行超千天，月球探测初样研制中

驻华使节亲身体验小米汽车，SU7海外呼声高何时能驶向全球？