GTC大会飞桨专家演讲实录：简单易用的飞桨分布式训练功能升级

时间：2020-12-25 11:09:08 来源：互联网编辑：星辉 发表评论无障碍通道

有着“年度 AI 风向标”之称GTC 大会是英伟达每年最重要的发布平台之一，广纳当今计算领域最热门话题的相关培训和见解，并为广大开发者创造与顶级专家交流的机会。12月15日-19日，GTC中国大会首次以线上大会的形式与开发者相见，共组织265场技术演讲，演讲者分别来自百度、阿里、腾讯、字节跳动等众多知名企业与清华大学、中科院计算所等知名高校。百度飞桨也贡献了四个主题演讲，现在为您带来飞桨大规模分布式训练进展与应用的演讲实录。

课程链接：https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20351

AI Studio链接：https://aistudio.baidu.com/aistudio/education/group/info/2099

大规模分布式训练作为飞桨的重要功能模块，在并行训练API、并行策略、框架基础架构都有了相应的更新升级。在一小时的演讲中，百度主任研发架构师董大祥围绕飞桨框架新版本的大规模训练与应用展开，介绍了大规模分布式训练的功能、性能、以及在产业中的实践。

以下为演讲实录部分：

飞桨的这次改动中主要是对并行训练API进行了全面更新，使代码变得更加简洁，也更方便调试，另外也对并行训练的策略进行了进一步的升级，可以适用于更大规模的模型参数。

飞桨的分布式训练API——Fleet的1.X版本已经投入使用，但一直在内部不断地打磨优化和一些升级，所以在文档中处于面向用户隐藏的状态。新版本中，我们固定了分布式训练API，正式面向外部的开发者开放，同时也把一些主流的训练模式，包括集合通信训练和参数服务器训练，做成统一的Fleet API(paddle.distributed.fleet)，并在集合通信训练功能下实现了动态图和静态图训练API的统一。

如下三份代码分别展示了采用参数服务器训练、集合通信训练的动态图和静态图方式训练模型的示例代码，可以看到仅需要几行代码的新增即可完成单机转化为分布式训练的目标。

为了让用户能够灵活定义不同的分布式训练模式，我们开放了分布式加速策略distributed strategy类供用户定义并行训练的策略，比如我们可以去定义同步训练或者异步训练，可以去定义自动和精度训练等等。如下是distributed strategy类涵盖的一些分布式加速策略API，几乎囊括了所有能够用到的分布式训练加速策略。

另外我们考虑到用户的调试体验，也在执行方式上做了改进，如果用户采用Fleet去写分布式训练的代码，在单机和多机上都可以执行训练。Fleet API识别出来用户在跑单机训练，就会在底层屏蔽掉一些多机的逻辑，另一个就是用户可以去使用fleetrun的启动接口执行单机多卡的任务或多机多卡的任务，需要强调的就是这两种执行方式都是同一份代码，也就是用户可以很容易的在多机多卡和单机单卡之间做切换和调试。

飞桨新版本也开放了分布式通信的底层API，面向高级用户提供了可微分的分布式编程能力，开放了比如broadcast、all_reduce、reduce、all_gather等操作的前向与反向操作，还会开放更多的底层接口来满足开发者修改底层通信逻辑的需求。

与友商的性能对比

GPU卡具有显存限制，这使得模型大小及训练的Batch大小存在上限。我们设计了低成本扩大Batch的方法，gradient_merge梯度累积，对于不含BatchNormalization的模型有较好扩展性，性能几乎无损。另外我们还提供了半精度通信等横向扩展的能力，假使我们在训练的过程中使用的是一些比较老的GPU集群，比如p40不支持 FP16的计算，但是在通信的过程中是可以把 FP32精度量化为FP16精度后再进行通信，这样可以在训练精度几乎无损的情况下降低网络带宽占用。通过实测，P40下单机八卡训练VGG16模型，训练吞吐可以提升70%。

在超大规模模型参数的GPU训练支持上，飞桨框架2.0的RC版本推出sharding策略，开发者使用sharding策略即可训练参数超过百亿、甚至千亿级别的模型，例如openAI的GPT-3模型，百度的Plato模型。sharding策略的原理是利用模型分片存储，把超大规模模型参数的维护分布在各个GPU卡上，并通过集合通信操作All-Gather来实现模型参数的临时获取，在计算利用局部模型参数进行计算完成后即释放临时维护的模型参数。

飞桨当前的并行策略与选项开关较多，面向初级用户的使用仍然存在一定的门槛，在新版本中，面向用户提供可以自动并行的第一级(O1)功能，即并行策略组合功能，飞桨在用户开启自动并行选项时即可在底层自动打开尽可能帮助用户加速的并行策略。在随后的版本中，飞桨还会逐渐开放更高级的自动并行功能，例如在运行时动态调整并行策略等。

在适配多硬件进行分布式训练方面，飞桨正式推出异构参数服务器训练架构，充分利用AI芯片的计算能力提升训练吞吐，并兼容新接入的硬件进行并行训练，例如百度的XPU芯片。

飞桨框架新版本全面升级了面向开发者的编程接口，在分布式训练方面也本着持续降低用户使用门槛的方向进行编程接口的设计，同时也兼顾高级的开发者进行底层通信逻辑修改的需求开放底层API。在并行训练的策略、功能升级方面，飞桨也持续提升了并行训练的横向扩展性和纵向扩展性，提供目前最火热GPT家族模型训练能力，支持千亿模型参数的GPU训练，在对接硬件生态方面也推出了大规模异构参数服务器训练架构，方面更多的硬件快速接入飞桨分布式训练能力。

【关于飞桨】

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础，是中国首个开源开放、技术领先、功能完备的产业级深度学习平台，包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件，持续开源核心能力，为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台，针对企业级需求增强了相应特性，包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业，提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

12月16日，讯飞AI录音笔旗舰新品S8离线版重磅上市。该款产品为完全隔绝外界网络转文字AI录音设备，其所有功能均在本地实现，为对安全性有严格要求的用户群提供了新工具。数据泄露事件频发，信息保护需求凸显数字世界以网络连接为基础，以数据流动释放价值。在数字化浪潮

核心亮点：解锁电竞未来： ROG将于CES 2025 ROG新品发布会推出多项创新技术，彰显电竞实力超强产品阵容：探索为顶级性能释放和极致使用体验而打造的全新ROG新品笔记本终极性能：全新ROG枪神系列、ROG魔霸系列、ROG幻Air系列及幻X笔记本登场，为极致性能、便携性及潮流设

近日，以“科技赋能家电产业转型升级”为主题的2024中国家电科技年会在湖北武汉召开，海信空调受邀参加“家电噪声技术专题研讨会”，并作主题汇报。同时，“第三届全国轻工适老创新产品及智能健康解决方案大赛”结果隆重揭晓，海信空调以柔风、送风、智能等显著优势一举

时至十二月，又是一年终末。伴随着12.12的来临，厂商们纷纷开启了新一轮的促销优惠。作为年末备受期待的好物节，声势浩大的促销无疑是大家挑选心仪好物的好机会。如果你想在近期为自己选购一款智能手表来激励运动监测健康，不妨尝试一下最新的三星Galaxy Watch7和三星Ga

2024年进入尾声，国补政策即将在12月31日结束，还尚未使用笔记本国补资格的消费者朋友们不妨关注高颜值游戏本华硕天选5Pro锐龙版，其搭载GeForce RTX 4070笔记本电脑GPU，NVIDIA GeForce RTX™ 和 NVIDIA RTX™ GPU 专为 AI 时代打造。RTX GPU 由业界领先的 NVIDIA GPU

《使命召唤：黑色行动6》是由Treyarch和Raven Software联合开发，并由动视发行的第一人称射击游戏，于2024年10月25日正式发布。游戏上线Steam后，获得了广大玩家的好评。动视官方也宣称，《使命召唤：黑色行动6》成为《使命召唤》系列中首发最成功的作。在游戏正式发布

由GSC Game World开发并发行的《潜行者2:切尔诺贝利之心》已在STEAM正式上线,这是一款探索冒险题材的第一人称射击游戏。游戏以2006年第二次核反应堆爆炸事件为背景,玩家将化身为一名“潜行者”,面对一场史诗级的危险战斗。游戏首发即支持NVIDIA DLSS 3技术,搭载耕升 GeF

ROG游戏手机9系列自上市以来，赢得了不少信仰玩家的喜爱与支持，其凭借着出色的性能释放、独一档的185Hz屏幕刷新率，成为了手游爱好者们绝佳的上分利器。全新的矩阵式液冷散热架构9.0此次更是获得了酷冷风扇X Pro、ROG冰川液冷壳等全新配件的加持，使ROG 9系列获得了更

自12月2日掠夺者电竞大赛2025中国区挑战赛招募贴发布以来，受到了来自全国范围内游戏玩家及无畏契约战队的广泛关注，在不到一周的时间内，百余支战队积极报名。本届掠夺者电竞大赛不仅秉持公平公正的赛事精神，更是在战队筛选中推出了平等化社交媒体化的全新规则，在#宏

近日,2024年得力数码打印新品推介会在湖南长沙隆重举行。新品推介会以“善印起航,智绘新篇”为主题,得力集团副总裁张磊、设备事业部行业部总监薛峰、数码打印产品部总监丁启等众多公司领导共同出席活动,与专业渠道客户、行业渠道客户、B2B平台总部负责人等近百位经销商

在2024年12月6日至7日于北京举行的 “2024 T-EDGE全球创新大会”上，众多科技界精英齐聚一堂。大会期间，备受瞩目的「2024 EDGE AWARDS 全球创新评选」揭晓了年度各大奖项，其中，北京智爱未来科技有限公司旗下的AISON爱畅新一代便携式智能K歌音箱凭借“搭载了优质的扬

随着双12脚步的日益临近，2024年最后一场盛大的的购物狂欢节即将拉开帷幕。在这个专属于消费者的节日里，各大手机厂商也为消费者带来了诸多福利政策，给想要手机换新的朋友带来更多选择。作为潮流科技单品的代表，三星Galaxy Z Flip6集时尚设计、实用外屏、出众影像和尖

近年来，随着科技的迅猛发展和人们生活方式的变化，可穿戴设备的市场呈现出蓬勃发展的趋势。近日，国货品牌西普尼重磅发布首款搭载华为智能机芯的珠宝级智能女表，打破传统智能腕表的设计边界，为年末智能穿戴设备市场带来一场视觉与科技的双重盛宴。在外观设计上，它采

作为全球范围内显示技术的一个极其重要的分支，量子点这项在2023年获得诺贝尔奖的尖端技术，近年来引起了越来越多包括TCL、三星、索尼等在内的电视龙头企业关注，其中作为全球量子点显示技术先行者的TCL，近期在该领域再次取得了新突破，推出了量子点Pro 2025技术，并且

冷冬渐至，北风低吟，随着寒潮席卷国内多地，冬季也正式拉开序幕。骤然变冷的天气不仅容易诱发感冒等季节性疾病，同时也打乱了不少朋友们的生活节奏与运动规律。而如果想要在冬季追求健康生活，一款能够监测运动与身体健康情况的三星Galaxy Watch智能手表就成了非常不错

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.