【ITBEAR科技资讯】5月11日消息,日本多家产学研机构组成的联合研究团队近日发布了一款名为 Fugaku-LLM 的大型语言模型。该模型独具特色,因为它是在全球最快的Arm架构超级计算机“富岳”上进行训练的,充分展现了日本在科技领域的创新实力。
据悉,Fugaku-LLM模型的开发工作于2023年5月正式启动,由富士通、东京工业大学、日本东北大学和日本理化学研究所等核心机构共同负责。而在研发过程中,名古屋大学、CyberAgent公司及HPC-AI领域的创新企业Kotoba Technologies也于2023年8月加入了这一宏伟计划。
研究团队在新闻稿中自豪地表示,他们成功挖掘了富岳超级计算机的巨大潜能。通过优化算法和提升计算效率,团队将矩阵乘法的计算速度提高了6倍,通信速度也实现了3倍的提升。这一重要突破证明了大型纯CPU超级计算机在训练大型语言模型方面的可行性。
Fugaku-LLM模型拥有庞大的参数规模,达到了130亿,成为日本国内最大的大型语言模型。为了构建这一模型,研究团队动用了富岳超算的13824个计算节点,在庞大的3800亿个Token上进行了深入训练。训练资料中有60%是日语内容,其余40%则涵盖了英语、数学、代码等多个领域。
该模型在日语表达方面尤为出色,研究团队宣称Fugaku-LLM能够在交流中自然运用日语敬语等特殊表达方式,这在国际范围内都是罕见的。在日语MT-Bench模型基准测试中,Fugaku-LLM的平均得分高达5.5,位居基于日本语料资源的开放模型之首。在人文社科类别中,它更是斩获了9.18的优异成绩。
目前,这款杰出的Fugaku-LLM模型已经在GitHub和Hugging Face平台上公开发布。外部研究人员和工程师在遵守相关许可协议的前提下,可将该模型广泛应用于学术研究和商业领域。