ITBear旗下自媒体矩阵:

谷歌发布最新通用大语言模型PaLM2,训练数据达3.6万亿个令牌

   时间:2023-05-17 09:32:31 来源:ITBEAR编辑:星辉 发表评论无障碍通道

【ITBEAR科技资讯】5月17日消息,谷歌在其I/O开发者大会上发布了最新的通用大语言模型PaLM2。据ITBEAR科技资讯了解,该模型的训练数据几乎是其上一代模型的5倍,达到了3.6万亿个令牌。PaLM2在编程、数学和创意写作方面表现更为优秀,得益于其庞大的训练数据。

谷歌此次发布的PaLM2模型采用了比之前版本多得多的令牌进行训练。令牌是指训练大语言模型所使用的单词串,它们对于教导模型如何预测字符串中可能出现的下一个单词至关重要。内部文件显示,2022年发布的上一代模型PaLM仅使用了7800亿个令牌,而PaLM2则提升到了3.6万亿个令牌。

尽管谷歌希望展示其人工智能技术的实力,并在搜索、电子邮件、字处理和电子表格等领域实现更高效的应用,但该公司并未公开披露训练数据的具体规模和其他细节。与谷歌类似,微软支持的OpenAI也对其最新的GPT-4大语言模型保密了细节信息。这两家公司之所以保密,是因为它们都希望吸引那些希望通过聊天机器人直接获取答案的用户,从而在商业竞争中占据优势。

然而,随着人工智能军备竞赛的白热化,一些研究人员呼吁企业增加透明度。虽然谷歌声称新模型比之前的大语言模型更小,但其技术效率却得到提升,能够完成更复杂的任务。根据内部文件显示,PaLM2是基于3400亿个参数进行训练的,而初始版本的PaLM则基于5400亿个参数。

据谷歌在一篇关于PaLM2的博文中介绍,该模型采用了一种名为“计算机优化扩张”的新技术,使得大语言模型具备更高的效率和整体性能,包括加快推理速度、减少参数调用和降低服务成本。

此次发布的PaLM2模型针对100种语言进行了训练,能够执行更广泛的任务,并已被应用于谷歌的25个功能和产品,包括实验性聊天机器人Bard。PaLM2共有四个规模,从小到大分别是壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn)。

根据公开披露的信息来看,PaLM2比现有的任何模型都更加强大。Facebook在今年2月宣布的LLaMA大语言模型仅采用了1.4万亿个令牌进行训练。而OpenAI在披露GPT-3训练规模时表示,其当时基于3000亿个令牌进行训练。今年3月,OpenAI发布GPT-4时宣称其在许多专业测试中展示出与人类媲美的表现。

LaMDA是谷歌两年前推出的对话型大语言模型,今年2月与Bard一同亮相。该模型基于1.5万亿个令牌进行训练。

随着新的人工智能应用快速进入主流,围绕底层技术的争议也日益激烈。谷歌高级研究科学家艾尔·迈赫迪·艾尔·麦哈麦迪(El Mahdi El Mhamdi)今年2月辞职,其中一个主要原因是人工智能技术缺乏透明度。本周二,OpenAI的CEO山姆·阿尔特曼(Sam Altman)在美国国会举行的隐私和技术听证会上表示,我们需要建立一套新的制度来应对人工智能潜在的问题。

阿尔特曼说:“对于一种全新的技术,我们需要一套全新的框架。当然,像我们这样的公司应当为我们推出的工具承担许多责任。”

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version