2019开年以来,百度大脑视觉技术团队在国际赛事上屡屡夺冠。继ICME人脸106关键点检测比赛夺冠、多目标追踪挑战MOT榜单第一等多项赛事传来喜报后,百度大脑视觉技术团队再露锋芒,飞桨视觉能力再攀高峰,一举刷新四项世界纪录。
近日,百度大脑视觉技术团队联合百度智能云,在斯坦福大学举办的DAWNBench榜单中,刷新了四项世界纪录。四个项目分别是CIFAR10训练速度和成本以及CIFAR10推理速度和成本。其中CIFAR 训练速度45s、推理速度0.6830ms,均大幅度提高了原榜单的成绩(原训练及推理纪录为74s、0.828ms),而取得此效果对应百度智能云GPU服务器的成本仅为0.02美元及0.0000002078美元。
DAWN 比赛由斯坦福大学携手Google,Intel,Facebook,Microsoft等世界知名公司联合举办,其宗旨在于推进AI的民主化进而使得AI以更便捷的方式赋能各个行业。所以其侧重点亦与计算机视觉领域的其它竞赛有所区别, DAWN竞赛关注在给定任务下 (例如 CIFAR10)算法达到特定准确性所需要的训练时间、推理时间及相应的成本。当今计算机视觉应用需要大量云端服务器资源,算法训练和推理时间越短,才能越具有实际应用的价值。因此,对背后的云服务能力是极大的考验。
随着深度学习的发展,计算机视觉和自然语言处理等领域取得了诸多成就。但是,当任务不同、数据不同时,相应的模型设计也面临着很大的挑战。因此,百度大脑视觉技术团队本次将目标聚焦在CIFAR10 图像数据的分类任务上,期望通过设计出最小最快的CNN网络,从而帮助百度智能云的用户适用小型图像数据库的分类任务,这对实际生产应用领域,如某些医学图像识别、特定场景的工业质检等都具有帮助和启发意义。
在推理项目中,百度大脑视觉技术团队从飞桨(PaddlePaddle)分类模型库起步,基于更少的模型层数, 更窄的模型宽度,和更少运算量的思想,得到简洁有效的深度学习神经网络BaiduNet8,实现了竞赛中推理速度最快的模型设计。
在训练项目中,从飞桨(PaddlePaddle)自动模型搜索功能起步,设计了适于快速训练的网络结构BaiduNet9。针对单GPU卡场景,开发了混合精度策略,创新地提出并采用了自适应的类三角函数学习率函数,使得模型收敛速度能大大提高4倍左右。
图1
针对多 GPU卡场景,结合百度智能云GPU服务器的优越性能,百度大脑视觉技术团队开发了适合分布式训练的多线程训练软件架构,优化了相应的新型学习率曲线(如图1所示)、权重衰减、动量、批处理参数,设计了cutout 和mix up 相结合的数据增强算法,最终得到改进型网络模型BaiduNet9P,真正有效利用多卡 GPU 环境。
图2
在百度智能云8卡V100的GPU服务器上训练CIFAR10数据集,百度团队实现了仅用44.9秒便达到了94%的精度(训练过程如图2所示),远超目前第一名74秒的成绩。值得一提的是,目前榜单上使用8*V100 GPU配置的最好成绩是174秒。
作为百度AI技术的集大成者,百度大脑不仅在视觉技术领域达到国际顶尖水平,在语音、自然语言处理、深度学习等AI核心技术领域也都始终保持着行业领先水准。百度大脑也正持续开放领先技术,为产业智能化赋能。
开发者想要了解更多比赛详情,可以登录百度智能云网站:cloud.baidu.com ,使用GPU服务器和AI开发平台Infinite完整体验和验证本次项目。