人工智能三要素:算法、算力、数据,持续更进一步,让AI的边界不断拓展。AI工业大生产时代到来,深度学习越来越肩负着人工智能技术突破与行业落地的重任。5月20日,“WAVE SUMMIT 2020”深度学习开发者峰会在线召开,作为中国深度学习技术极客的年度盛宴,该峰会由深度学习技术及应用国家工程实验室与百度联合主办,而百度飞桨作为中国首个开源开放、功能完备的产业级深度学习平台又一次迎来全平台重磅升级。
百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰在峰会上分享到:“时代契机为飞桨的发展提供了最好的机遇,飞桨将与产业紧密融合,与开发者并肩前行。”
(图:百度首席技术官王海峰)
百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜正式对外发布飞桨最新的全景图,包含飞桨开源深度学习平台和飞桨企业版两部分。飞桨开源深度学习平台部分,包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。同时,随着企业应用需求越来越强烈,飞桨升级产品架构,推出飞桨企业版,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML,助力各个企业进行AI创新。
(图:飞桨核心框架架构全景)
为了满足时代与政策双重作用下猛增的“智能化”快速转型需求,飞桨此次全平台全新发布和升级35项技术能力。飞桨开源深度学习平台的升级与发布依旧侧重“工业级应用的极致体验”和“持续布局深度学习前沿技术”两大方向,继续保持开源,让深度学习从开发、训练到部署的全流程功能更加强大,更引领着前沿技术的持续创新。此外,飞桨还更完善地支持着产业实践的落地与价值创造,作为契合时代的“技术底座”,为新型基础设施建设提供重要支撑。
特别值得一提的是,峰会现场飞桨率先宣布支持复数神经网络,支持跨学科的机器学习研究。事实上,去年11月百度大脑就曾发布基于复数CNN网络语音增强及声学建模的“一体化”端到端建模技术,前瞻性遥遥领先。此次峰会,百度再次基于复数神经网络,首发量子机器学习开发工具量桨。飞桨赋能量子计算,成为国内首个、目前也是唯一一个支持量子机器学习开发工具的深度学习平台。
(图:飞桨发布量子机器学习开发工具Paddle Quantum量桨)
通过量桨,开发者不仅可以轻松搭建简洁的量子神经网络,还可以根据丰富的量子机器学习案例一步步组建所需模型。此外,由于飞桨已系统地扩展了包括复数变量、复数矩阵乘法在内的多项底层功能,因此量桨可完美地支持量子电路模型,也支持通用量子计算相关的研究,具有极好的通用性以及拓展性。简单来讲,量桨的量子机器学习开发工具包括:量子开发工具集,量子化学库,以及一系列优化工具。与此同时,量桨还提供了量子机器学习、量子化学模拟以及量子组合优化这三大核心量子应用。除此之外,联邦学习、强化学习、图神经网络等前沿技术也再次升级,为开发者提供强大的前沿开发工具组件,有力支持更多开发需求。
从开发、训练到部署,飞桨开源深度学习平台为开发者带来开发全流程体验的提升。在开发方面,除了提升动态图和高层API的能力外,飞桨还在图像和语音领域新增3个端到端开发套件。其中,在图像领域发布了工业级图像分类开发套件PaddleClas,其深度优化的ResNet50_vd识别准确率可达82.4%;以及可实现“千万级类别规模”分类,并提供模型并行、自动混合精度训练的PLSC套件。目标检测开发套件PaddleDetection也在模型数量、精度、速度和产业应用能力方面进行了全面升级。同时,还在语音领域全新推出具有“快、轻、简”优势的语音合成Parakeet开发套件。由于“端到端的开发套件”具有极易部署的重大优势,不仅可用于服务端的集成或服务化部署,并且其推理计算还能在移动端与边缘设备上进行部署,所以一直以来被各行各业的企业开发者在“智能化”升级时所喜爱。
(图:飞桨开源深度学习平台全面升级)
持续升级的还有自然语言理解(NLP)端到端开发套件ERNIE。ERNIE通过在通用基础模型上借助领域数据进一步构建弱监督任务,并进行持续学习,从而生成了多个“领域模型”,如法律领域、医疗领域等,可对专业内容进行理解。而将这些领域模型用于有监督的任务场景,即可得到各个领域的应用模型。截止目前,ERNIE面向产业应用,已形成包含有通用模型、任务模型、轻量级模型,以及领域模型的NLP预训练模型集。
训练方面,新增自动混合精度训练能力,一行代码就可以实现训练速度提升两倍;通过重计算机制降低显存占用,训练极深模型又好又省;扩展了模型并行、弹性训练等大规模分布式训练能力,更好满足超大规模数据场景的开发者需求。此外,还全新发布PaddleCloud云上任务提交工具,可快速匹配云上资源,提供云端训练资源。
而部署层面来讲,飞桨提供多平台、多场景、高性能的整体部署方案。此次除了持续夯实模型压缩PaddleSlim、原生推理引擎Paddle Inference、在线部署框架Paddle Serving、轻量化预测引擎Paddle Lite等端到端部署核心能力,还全新发布国内首个开源JavaScript深度学习前端推理引擎Paddle.js,用于小程序、网页端部署。会上,飞桨联合全球领先硬件厂商英特尔、英伟达、arm中国、华为、MediaTek、寒武纪、浪潮、中科曙光等启动共建硬件生态合作圈,强强联手,合力推动AI更快速的发展与落地。
在工具组件上,为了进一步提升开发者全流程开发体验,飞桨全新发布PaddleX全流程开发工具,实现对“开发、训练、部署”全流程的打通,极大地方便了快速集成,大幅提升模型开发效率。目前,PaddleX已在各类AI应用的快速开发中提供支持,如广东电科院使用PaddleX开发智能巡检,将原来6小时的巡检流程缩短至15分钟;以及虚拟现实内容公司“指挥家”,在使用PaddleX实现VR应用时,其开发效率提升了30%以上。
去年秋季深度学习开发者峰会上,飞桨发布的Master模式,此次也迎来全面升级,预训练模型更多、迁移学习能力更强。其中,在预训练模型方面,重点聚焦视觉预训练模型和NLP语义理解模型ERNIE。例如推出了视觉方面的超大规模的分类预训练模型、目标检测预训练模型、超大规模视频分类预训练模型等等。迁移学习工具方面,则新增DELTA、Deep Transfer Never Hurt、自动化超参搜索等多个最新技术,提升应用效果。企业开发者可以通过开源的PaddleHub和EasyDL应用飞桨Master模式,仅用少量数据、简单操作、更低成本,实现多场景下的优异模型效果。
最后,飞桨的服务平台升级为“飞桨企业版”。其中,EasyDL此次重磅发布业内首个专注于AI开发领域的智能数据服务平台EasyData,并在预训练模型、自动数据增强与超参搜索,分布式训练加速、端计算模型部署等4个方面进行升级。
不难感受到,飞桨一边为“智能化”升级的产业实践提供着全面且强有力的技术支持,一方面也在产业实践过程中,实现技术能力的持续迭代、快速发展。在整个迭代进程中,飞桨针对不同开发能力及开发需求的个人开发者与企业,进行全方位的赋能,不断降低深度学习的应用门槛。本届峰会,飞桨再次通过一系列的新动作,将深度学习在实际业务中落地部署的速度加快,而同一时间,中国“产业智能化”转型进程、中国智造的创新方式也再次获得巨大助力。