在人工智能领域的大模型技术浪潮中,一个长期被奉为圭臬的法则——Scaling Law,近日受到了前所未有的挑战。据科技媒体The Information独家报道,OpenAI下一代旗舰模型Orion的训练效果似乎并未如预期般惊艳,与GPT-4相比,性能提升可能微乎其微。这一消息在业界掀起了轩然大波,迫使从业者重新审视大模型的发展路径。
一直以来,基于Scaling Law的大模型发展路径存在着显著的瓶颈。为了提升模型的能力,厂商们不得不持续扩大预训练数据的规模、增加训练算力,并不断扩大模型的参数。然而,这种做法不仅成本高昂,而且容易导致算法的同质化,进而造成数据规模和训练算力的同质化,最终使得模型的输出能力趋于一致。大模型能否有效学习并利用客户数据,成为特定领域的专家,也是一个亟待解决的问题。
面对这些挑战,硬氪近日接触到的传神物联网公司提出了一种全新的观点:集中式预训练模式或许已经走到了尽头,实时学习和训练模式更值得探索。传神物联网的董事长何恩培指出,在相同参数下,如果模型的算法和架构更加先进,那么所需的训练算力和训练数据就会更少,而且模型的性能甚至可能超越那些采用常规架构和大参数的模型。
“这种采用高效算法和架构的小参数模型,不仅更适合商业落地,而且能够满足通用场景的需求。”何恩培强调道。基于这一理念,传神物联网发布了其自主研发的任度大模型,该模型采用了双网络架构,将推理网络与数据学习网络分离。
其中,数据学习网络类似于人类的左脑,专注于数据的动态管理和迭代训练,持续为模型提供知识。而推理网络则类似于人类的右脑,作为经过大量数据预训练的基础网络,具备出色的推理和泛化能力。这种双网络协同工作的设计,不仅降低了训练的算力成本,还避免了微调导致的模型能力退化和泛化能力减弱等问题。
据传神物联网介绍,任度大模型采用了全技术栈自主研发的双网络架构,未使用任何开源代码和框架。通过数推分离技术,该模型突破了常规大模型的技术架构限制,上下文输入长度不再受限,能够将亿量级用户数据压缩至神经网络中,并进行深度知识理解。这种实时数据学习模式,即使面对极少量的数据更新,也能快速上传并完成数据压缩,迭代为企业自己的定制化大模型。
目前,传神物联网已将双网络架构的数推分离大模型应用至任度“双脑”大模型一体机中,即将投放市场。该一体机基于数推分离的双脑模式,解决了客户数据离场训练、向量效果有限及人才投入高等痛点。通过本地部署及训练,无需上传至公有云,保障了数据的隐私安全。
任度“双脑”大模型一体机还具备根原创和高性参比的特点,能够在一定程度上解决客户在应用大模型过程中的高硬件投入、高能耗以及技术安全和软件漏洞等痛点。这一创新性的解决方案,无疑为业界提供了一种全新的思路,有望推动大模型技术的发展进入一个新的阶段。