【ITBEAR科技资讯】10月9日消息,近日财联社曝出百度的文心大模型 4.0 正在积极进行训练,并且已经接近可发布的状态。今天,我们进一步了解到文心 4.0 的更多细节,包括底层架构、基础设施、训练数据集和成本等重要信息。
根据我们的了解,文心大模型 4.0 已经进行了小流量测试,证实了昨天的爆料。这一模型的参数规模大于目前所有已经公开发布的大语言模型(LLM),这意味着文心 4.0 的参数规模预计将突破万亿级别的巨大数字。
文心 4.0 仍然是一个单一模型,而不是采用了混合专家模型(MoE)的方式,这与一些其他大型语言模型(如GPT-4)不同。之前有消息称,GPT-4 采用混合模型是因为无法让单一模型的参数规模超过2200亿。因此,百度能否在单一模型上取得突破,以及模型能力是否会有明显提升,这需要等待真正发布后才能确定。
对于如此庞大的参数模型,它对算力的要求显然不小。据我们了解,文心 4.0 是在万卡 AI 集群上训练出来的,这也标志着它是国内首个使用万卡规模集群进行训练的大语言模型。目前,国内仅有华为和阿里透露已建成万卡 AI 集群,但尚未公布具体的模型基于该集群的应用。
这也表明,万卡集群的建设并不容易,而要充分发挥其潜力更加具有挑战性。我们分析认为,这可能是百度飞桨深度联合技术的功劳,使得文心大模型 4.0 可以在万卡集群上成功训练如此庞大的模型。
与此同时,除了训练成本增加外,文心 4.0 的推理成本也大幅上升,据传言可能达到之前的8-10倍,尤其在高利用率情况下。如果利用率更低,成本可能还会进一步上升。
根据内部员工的消息,百度已经秘密进行了小流量测试文心大模型 4.0,部分文心一言用户已经在使用最新的模型版本。最快将在下周正式发布。这一说法得到了一些技术社区爆料的佐证。因此,如果你正在使用文心一言,并且感觉到与GPT-4相当,可能你已经在使用文心大模型 4.0。不过,需要强调的是,以上信息并未得到官方确认,大家仍需谨慎对待其准确性。