滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

PaddlePaddle搭建工业级ICNET应用预测速度超谷歌20%

时间：2019-04-19 11:28:59 来源：互联网编辑：星辉 发表评论无障碍通道

引言

提起ICNET，就不得不说说ICNET构建的初衷-解决图像语义分割在实时应用中的挑战。图像语义分割(semantic segmentation)是结合了图像分类和对象检测，对图像中的每个像素实现细粒度的分类，就像下面的图中看到的那样，可以对封闭形状区域进行类别标记!得益于深度学习技术的爆发式发展，图像语义分割也进入高速的发展阶段。

Figure 1 图像语义分割示例

技术现状

Fully convolutional network(FCN)

J. Long et al. (2015) 首先将全卷积网络(FCN)应用于图像分割的端到端训练。FCN修改了VGG6等网络使其具有非固定大小的输入生成具有相同大小的分割图像，同时通过卷积层替换所有完全连接的层。由于网络生成具有小尺寸和密集表示的多个特征映射，因此需要进行上采样以创建相同大小的特征。基本上，它包含于一个步幅不小于1的卷积层。它通常称为反卷积，因为它创建的输出尺寸大于输入。这样的话，整个网络是基于像素点的损失函数进行训练的。此外，J. Long在网络中添加了跳过连接，以将高层级特征映射表示与网络顶层更具体和密集的特征表示相结合。FCN把CNN最后的全连接层换成卷积层，这也是其名字的由来。

Figure 2 FCN网络结构

ParseNet

W. Liu et al. (2015) 针对J. Long的FCN模型进行了两步改进，第一步使用模型生成要素图，这些要素图被缩减为具有池化层的单个全局特征向量。使用L2欧几里德范式对该上下文向量进行归一化，并且将其取出(输出是输入的扩展版本)以生成具有与初始值相同的大小的新特征映射。第二步再使用L2 欧几里德范式对整个初始特征映射进行归一化。最后一步连接前两个步骤生成的要素图。规范化有助于缩放连接的要素图值，从而获得更好的性能。

Figure 3 ParseNet网络结构

Pyramid Scene Parsing Network (PSPNet)

H. Zhao et al. (2016) 开发了金字塔场景解析网络(PSPNet)，以更好地学习场景的全局内容表示。PSPNET使用具有扩张网络策略的特征提取器从输入图像中提取模式。特征提供给金字塔池化模块以区分具有不同比例的模式。它们与四个不同的尺度合并，每个尺度对应于金字塔等级，并由1x1卷积层处理以减小它们的尺寸。这样，每个金字塔等级分析具有不同位置的图像的子区域。金字塔等级的输出被上采样并连接到初始特征图以最终包含局部和全局的上下文信息。然后，它们由卷积层处理以生成逐像素的预测。

Figure 4 PSPNet网络结构

ICNET

H. Zhao et al. (2018)针对高清图像的实时语义分割，提出了一个基于PSPNet的图像级联网络(ICNET)，它解决了现实应用中的基于像素标签推断需要大量计算的难题。ICNET可以在单块GPU卡上实现实时推断并在Cityscapes，CamVid等数据验证有相对不错的效果。

当今基于深度学习的各种网络架构不断提升图像语义分割的性能，但是都距离工业界的实际应用有一定距离，像在Cityscapes数据集取得不错效果的ResNet和PSPNet针对1024*1024的图像至少需要1秒钟做出推断，远远不能满足自动驾驶，在线视频处理，甚至移动计算等领域实时的要求，ICNET即是在这样的背景下，在不过多降低预测效果的基础上实现毫秒级相应以满足实时处理的要求。在Cityscapes数据集上，ICNET的响应时间可以达到33ms，处理能力达到30.3fps，准确率达到70.6%的mIoU分数。

Figure 5 在Cityscapes数据集上的结果表

ICNET的主要贡献在于开发了一种新颖独特的图像级联网络用于实时语义分割，它高效的利用了低分辨率的语义信息和高分辨率图像的细节信息;其中级联特征融合模块与级联标签引导模块能够以较小的计算代价完成语义推断，可以取得5倍的推断加速和5倍的内存缩减。

ICNET需要级联图像输入(即低，中和高)分辨率图像，采用级联特征融合单元(CFF)并基于级联标签指导进行训练。具有全分辨率的输入图像通过1/2和1/4比例进行下采样，形成特征输入到中分辨率和高分辨率的分支，逐级提高精度。

Figure 6 ICNET架构

我们使用低分辨率输入得到语义提取，如上图顶部分支所示使用下采样率为8的比例将1/4大小的图像输入PSPNet，得到1/32分辨率的特征。获得高质量的分割，中高分辨率分支有助于恢复并重新处理粗糙的推断;CFF的作用就是引入中分辨率和高分辨率图像的特征，从而逐步提高精度，CFF的结构如下所示。

Figure 7 CFF结构

这样只有低分辨率的图像经过了最深的网络结构，而其他两个分支经过的层数都逐渐减少，从而提高了网络的速度。

为了降低网络的复杂度，ICNET采用了修剪网络每层中的内核来实现模型压缩。对于每个过滤器，首先计算内核L1范式的求和，然后降序排列仅保留部分排名靠前的内核。

ICNET的实现及应用

自ICNET问世以来，各家深度学习架构都快速的推出了相应的模型实现，包括PaddlePaddle，tensorflow和pytorch。以下将主要基于精密零件智能分拣场景对比PaddlePaddle和tensorflow中ICNET网络的应用性能。

PaddlePaddle介绍

PaddlePaddle (PArallel Distributed Deep LEarning) 最初由百度深度学习实验室于 2013 年创建，一直被百度内部的研发工程师们所使用。在2016年百度世界大会上对外开放，它是国内第一个开源的机器学习平台。它从一开始就专注于充分利用 GPU 集群的性能，为分布式环境的并行计算进行加速，所以在对大规模数据进行AI训练和应用上要比TensorFlow要快得多。同时，它对国内用户尤其友好，有完善的中文文档支持，它在开发效率和易用性方面有较明显的优势，它可以使用一两行代码实现TensorFlow需要数行代码才能实现的功能，从而使开发者将工作的重点放在构建深度学习模型的高层部分。

PaddlePaddle中ICNET在工业界的应用

截至目前， PaddlePaddle已在互联网行业CTR预测、搜索排序、大规模图像分类等数亿级用户量的产品和服务上成功部署使用。当下，传统行业正在进行深度变革，利用AI技术赋能，实现传统行业工作的自动化，智能化，使其工作人员的工作内容技术含量更高、更人性化，从而促进传统行业的现代化转型和产业升级，对工厂经营效率和效益的提高有很大的帮助和意义。

就在最近，领邦智能联合百度PaddlePaddle团队对公司的精密零件质检工作进行了AI赋能升级。在精密零件的人工质检工作中，工人每天需要8~12小时在注意力高度集中亮光的条件下目视检查直径45mm以内零件的质量，工作的强度非常大，对工人视力也有很大的伤害。目前基于PaddlePaddle平台实现的ICNET模型在机器质检的应用上已经达到了人工质检的准确度，从机器代人这个角度进行经济测算，可使工厂生产成本平均降低15%,效益提升15%;由于机器检验水平稳定，大大提高了产品的交付质量，交付投诉率平均降低了30%。由于精密零件质检数据的是保密非公开的，所以我们用公开数据集cityscape来介绍一下如何在PaddlePaddle上训练和应用ICNET实现图像语义分割，整个流程可以仅在几天内完成。

开发环境

操作系统：Linux x86_64

CPU版本：Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz

GPU版本：Nvidia-P40(运行状况如下图所示)

Figure 8 gpu运行状况

数据准备-Cityscapes

Cityscapes( https://www.cityscapes-dataset.com/ )包含从50个城市收集的不同季节的5,000个高质量像素级精细注释图像(定义了19个类别)。各有2975/500/1525张图用于训练/验证/测试。

下载后得到cityscape数据集，下载后的文件结构如下：

Figure 9 cityscapes数据集结构

安装PaddlePaddle

PaddlePaddle支持Ubuntu 14.04/16.04/18.04;CentOS 7/6;MacOS;Windows7/8/10。具体请参考官方教程，非常详细(http://staging.PaddlePaddle.org/documentation/docs/zh/0.14.0/new_docs/beginners_guide/install/install_doc.html )

因为PaddlePaddle已经在pip封装了自己的安装包，我这里选择构建虚拟环境，并直接从pip傻瓜式安装。

 如果不使用gpu，直接通过pip安装

pip install PaddlePaddle

 如果是使用gpu，需要先查看系统的cuda和cudnn版本

查看cuda版本

cat /usr/local/cuda/version.txt

查看cudnn 版本

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

按照系统的cuda和cudnn版本选择需要安装的PaddlePaddle-gpu版本

pip install PaddlePaddle-gpu==1.3.0.post97

构建模型

根据ICNET网络结构构建模型，创建不同比例采样的低分辨率图像，再通过CCF融合逐步提高精度：

模型训练

利用已经写好的model构建trainer：

执行以下命令进行训练，同时指定checkpoint保存路径:

python train.py --batch_size=16 --checkpoint_path="./chkpnt/" --use_gpu=True --random_mirror=True --random_scaling=True

加载提供的预训练模型可以加快训练进度。(不过这里官方的预训练模型缺少部分参数文件，会导致最终的效果降低)

执行以下命令加载预训练模型进行训练，同时指定checkpoint保存路径:

python train.py --batch_size=16 –-init_model=”./model_1000/” --checkpoint_path="./chkpnt/" --use_gpu=True --random_mirror=True --random_scaling=True

Figure 10 训练损失下降图

测试

完成模型的训练后，进行效果测试：

执行以下命令在cityscape测试数据集上进行测试：

python eval.py --model_path="./chkpnt/30000/" --use_gpu=True

在进行30000次迭代后得到的模型在验证数据集上验证的结果为：mean_IoU=67.25%。符合论文中~67%的效果预期，本次实验在p40上完成，完成30000次迭代共耗时近20个小时。

框架对比

下表展示了PaddlePaddle1.3和TensorFlow1.12的性能对比，以下对比实验使用的输入数据是1024x2048分辨率的图片，batch size为16：

小结

本文介绍了图像语义分割实现的主流技术，并在PaddlePaddle上应用ICNET实现cityscape数据集的语义分析实践。另外，我们已经将PaddlePaddle的ICNET应用于领邦精密零件智能分拣机项目，实现了AI技术在产业落地。即基于PaddlePaddle实现了ICNET模型训练、部署，建立了客户自主数据标注->云端训练模型->下载模型->本地部署的全部流程。对比TensorFlow，在相同精度下我们的预测速度要快20%以上(25ms：33ms)。PaddlePaddle框架，不仅是一个性能优秀的深度学习框架，更能够基于对中国本土企业的深度学习需求的深入发掘，从而能够更好的满足国内企业用户的需求。希望PaddlePaddle在传统行业的AI赋能和现代化转型中贡献更多的力量。

参考

1.https://github.com/PaddlePaddle/Paddle

2.https://github.com/tensorflow/tensorflow

3.https://github.com/hszhao/ICNet

4.https://arxiv.org/abs/1704.08545

5.https://arxiv.org/abs/1411.4038

6.https://arxiv.org/abs/1506.04579

7.https://arxiv.org/abs/1612.01105

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

12-19

神策智能运营新升级，如何助力企业实现高效精准营销？

12-19

顺丰控股11月收入稳健增长6.73%，供应链及国际业务增速亮眼

三言科技12月19日消息，今日，顺丰控股公告，2024年11月公司速运物流业务及供应链和国际业务合计收入为251.96亿元，较2023年同期236.08亿元增长6.73%。其中，速运物流业务收入为188.02…

12-19

荣耀股东变动引关注，官方称系股权架构调整

三言科技12月19日消息，近日，多则网传荣耀新一轮股改已完成。据媒体报道，荣耀的股东名单已经发生变更，有国资背景的股东显示退出。信息显示，9月刚刚加入的新股东杭州微同股权投资合伙企业（有限合伙），于11月退出…

12-19

顺丰航空引领！国内全货机首次SAF商业飞行成功落地

12-19

中央经济工作会议力推哪些新兴经济模式？

12-19

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

12-19

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

12-19

宠物粮市场乱象频发，铲屎官如何为宠物选对粮？

据“趣解商业”了解，“源鲜”曾是网易严选、喵梵思等国产中高端品牌多次合作的代工厂，在不少养宠人心中有较高信任度；“源鲜”的塌房，再次挑动了许多养宠人的神经。 Erica还提到，宠粮本质上属于快消行业，并不是靠…

12-19

柔韧机器人：具身智能的新赛道与革命性突破？

相比于现阶段普遍使用的基于电机关节、金属材料、复杂传感器和精密加工工艺的“刚性”机器人技术，万勋科技通过使用软性材料与气/液驱动，以软材料仿生肌肉和神经元智能复刻人类肌肉柔韧特性，具备轻巧灵活、安全互动、易…

12-19

北京中关村科学城国际医谷开工，打造医疗健康产业集聚新高地

作为项目建设推进方，北京海新域城市更新集团相关负责人介绍，中关村科学城国际医谷项目将在产业链上游吸引顶尖研发机构和企业，汇聚创新源头力量；在中游通过公共技术服务平台降低研发门槛，助力创新的想法实施；在下游建…

12-19

《猎人克莱文》IGN仅评3分，高成本制作却换来低质口碑？

12-19

中兴通讯股价异动，公司称生产经营正常，无未公开重大信息影响股价

12-19

顺丰控股11月速运物流营收微增，供应链及国际业务增长超两成

12-19

澳门风情画轴展开，智界新S7穿梭其中成焦点

12-19

点击查看更多 +

全站最新

TCL万象分区技术：Mini LED电视画质跃升的新篇章

挪威电动车热销，特斯拉陶琳：寒冷地区电动车可完全替代燃油车

宝马Skytop M8 Targa限量版来袭，概念车终成真！

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

《黑神话：悟空》获赞，海信E8共绘中国文化出海新篇章

值得买科技荣获卓越发展大奖，创新驱动消费产业高质量发展

热门内容

本栏最新

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

神策智能运营新升级，如何助力企业实现高效精准营销？

顺丰航空引领！国内全货机首次SAF商业飞行成功落地

中央经济工作会议力推哪些新兴经济模式？

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.

PaddlePaddle搭建工业级ICNET应用 预测速度超谷歌20%

PaddlePaddle搭建工业级ICNET应用预测速度超谷歌20%