滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

基于PaddlePaddle的图片分类实战 | 深度学习基础任务教程系列

时间：2019-04-19 13:42:12 来源：互联网编辑：星辉 发表评论无障碍通道

图像相比文字能够提供更加生动、容易理解及更具艺术感的信息，图像分类是根据图像的语义信息将不同类别图像区分开来，是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在安防、交通、互联网、医学等领域有着广泛的应用。

一般来说，图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述，然后使用分类器判别物体类别，因此如何提取图像的特征至关重要。基于深度学习的图像分类方法，可以通过有监督或无监督的方式学习层次化的特征描述，从而取代了手工设计或选择图像特征的工作。深度学习模型中的卷积神经网络(Convolution Neural Network, CNN) 直接利用图像像素信息作为输入，最大程度上保留了输入图像的所有信息，通过卷积操作进行特征的提取和高层抽象，模型输出直接是图像识别的结果。这种基于"输入-输出"直接端到端的学习方法取得了非常好的效果。

本教程主要介绍图像分类的深度学习模型，以及如何使用PaddlePaddle在CIFAR10数据集上快速实现CNN模型。

项目地址：http://paddlepaddle.org/documentation/docs/zh/1.3/beginners_guide/basics/image_classification/index.html

基于ImageNet数据集训练的更多图像分类模型，及对应的预训练模型、finetune操作详情请参照Github：https://github.com/PaddlePaddle/models/blob/develop/PaddleCV/image_classification/README_cn.md

效果展示

图像分类包括通用图像分类、细粒度图像分类等。图1展示了通用图像分类效果，即模型可以正确识别图像上的主要物体。

图1. 通用图像分类展示

图2展示了细粒度图像分类-花卉识别的效果，要求模型可以正确识别花的类别。

图2. 细粒度图像分类展示

一个好的模型既要对不同类别识别正确，同时也应该能够对不同视角、光照、背景、变形或部分遮挡的图像正确识别(这里我们统一称作图像扰动)。图3展示了一些图像的扰动，较好的模型会像聪明的人类一样能够正确识别。

图3. 扰动图片展示[7]

模型概览

CNN：传统CNN包含卷积层、全连接层等组件，并采用softmax多类别分类器和多类交叉熵损失函数，一个典型的卷积神经网络如图4所示，我们先介绍用来构造CNN的常见组件。

图4. CNN网络示例[5]

• 卷积层(convolution layer): 执行卷积操作提取底层到高层的特征，发掘出图片局部关联性质和空间不变性质。

• 池化层(pooling layer): 执行降采样操作。通过取卷积输出特征图中局部区块的最大值(max-pooling)或者均值(avg-pooling)。降采样也是图像处理中常见的一种操作，可以过滤掉一些不重要的高频信息。

• 全连接层(fully-connected layer，或者fc layer): 输入层到隐藏层的神经元是全部连接的。

• 非线性变化: 卷积层、全连接层后面一般都会接非线性变化函数，例如Sigmoid、Tanh、ReLu等来增强网络的表达能力，在CNN里最常使用的为ReLu激活函数。

• Dropout [1] : 在模型训练阶段随机让一些隐层节点权重不工作，提高网络的泛化能力，一定程度上防止过拟合。

接下来我们主要介绍VGG，ResNet网络结构。

VGG：牛津大学VGG(Visual Geometry Group)组在2014年ILSVRC提出的模型被称作VGG模型 [2] 。该模型相比以往模型进一步加宽和加深了网络结构，它的核心是五组卷积操作，每两组之间做Max-Pooling空间降维。同一组内采用多次连续的3X3卷积，卷积核的数目由较浅组的64增多到最深组的512，同一组内的卷积核数目是一样的。卷积之后接两层全连接层，之后是分类层。由于每组内卷积层的不同，有11、13、16、19层这几种模型，下图展示一个16层的网络结构。VGG模型结构相对简洁，提出之后也有很多文章基于此模型进行研究，如在ImageNet上首次公开超过人眼识别的模型[4]就是借鉴VGG模型的结构。

图5. 基于ImageNet的VGG16模型

ResNet：ResNet(Residual Network) [3] 是2015年ImageNet图像分类、图像物体定位和图像物体检测比赛的冠军。针对随着网络训练加深导致准确度下降的问题，ResNet提出了残差学习方法来减轻训练深层网络的困难。在已有设计思路(BN, 小卷积核，全卷积网络)的基础上，引入了残差模块。每个残差模块包含两条路径，其中一条路径是输入特征的直连通路，另一条路径对该特征做两到三次卷积操作得到该特征的残差，最后再将两条路径上的特征相加。

残差模块如图7所示，左边是基本模块连接方式，由两个输出通道数相同的3x3卷积组成。右边是瓶颈模块(Bottleneck)连接方式，之所以称为瓶颈，是因为上面的1x1卷积用来降维(图示例即256->64)，下面的1x1卷积用来升维(图示例即64->256)，这样中间3x3卷积的输入和输出通道数都较小(图示例即64->64)。

图7. 残差模块

数据准备

由于ImageNet数据集较大，下载和训练较慢，为了方便大家学习，我们使用CIFAR10数据集。CIFAR10数据集包含60,000张32x32的彩色图片，10个类别，每个类包含6,000张。其中50,000张图片作为训练集，10000张作为测试集。图11从每个类别中随机抽取了10张图片，展示了所有的类别。

图11. CIFAR10数据集[6]

Paddle API提供了自动加载cifar数据集模块 paddle.dataset.cifar。

通过输入python train.py，就可以开始训练模型了，以下小节将详细介绍train.py的相关内容。

模型结构

Paddle 初始化

让我们从导入 Paddle Fluid API 和辅助模块开始。

本教程中我们提供了VGG和ResNet两个模型的配置。

VGG

首先介绍VGG模型结构，由于CIFAR10图片大小和数量相比ImageNet数据小很多，因此这里的模型针对CIFAR10数据做了一定的适配。卷积部分引入了BN和Dropout操作。 VGG核心模块的输入是数据层，vgg_bn_drop 定义了16层VGG结构，每层卷积后面引入BN层和Dropout层，详细的定义如下：

首先定义了一组卷积网络，即conv_block。卷积核大小为3x3，池化窗口大小为2x2，窗口滑动大小为2，groups决定每组VGG模块是几次连续的卷积操作，dropouts指定Dropout操作的概率。所使用的img_conv_group是在paddle.fluit.net中预定义的模块，由若干组 Conv->BN->ReLu->Dropout 和一组 Pooling 组成。

五组卷积操作，即 5个conv_block。第一、二组采用两次连续的卷积操作。第三、四、五组采用三次连续的卷积操作。每组最后一个卷积后面Dropout概率为0，即不使用Dropout操作。

最后接两层512维的全连接。

在这里，VGG网络首先提取高层特征，随后在全连接层中将其映射到和类别维度大小一致的向量上，最后通过Softmax方法计算图片划为每个类别的概率。

ResNet

ResNet模型的第1、3、4步和VGG模型相同，这里不再介绍。主要介绍第2步即CIFAR10数据集上ResNet核心模块。

先介绍resnet_cifar10中的一些基本函数，再介绍网络连接过程。

• conv_bn_layer : 带BN的卷积层。

• shortcut : 残差模块的"直连"路径，"直连"实际分两种形式：残差模块输入和输出特征通道数不等时，采用1x1卷积的升维操作;残差模块输入和输出通道相等时，采用直连操作。

• basicblock : 一个基础残差模块，即图9左边所示，由两组3x3卷积组成的路径和一条"直连"路径组成。

• layer_warp : 一组残差模块，由若干个残差模块堆积而成。每组中第一个残差模块滑动窗口大小与其他可以不同，以用来减少特征图在垂直和水平方向的大小。

resnet_cifar10 的连接结构主要有以下几个过程。

底层输入连接一层 conv_bn_layer，即带BN的卷积层。

然后连接3组残差模块即下面配置3组 layer_warp ，每组采用图 10 左边残差模块组成。

最后对网络做均值池化并返回该层。

注意：除第一层卷积层和最后一层全连接层之外，要求三组 layer_warp 总的含参层数能够被6整除，即 resnet_cifar10 的 depth 要满足

Infererence配置

网络输入定义为 data_layer (数据层)，在图像分类中即为图像像素信息。CIFRAR10是RGB 3通道32x32大小的彩色图，因此输入数据大小为3072(3x32x32)。

Train 配置

然后我们需要设置训练程序 train_network。它首先从推理程序中进行预测。在训练期间，它将从预测中计算 avg_cost。在有监督训练中需要输入图像对应的类别信息，同样通过fluid.layers.data来定义。训练中采用多类交叉熵作为损失函数，并作为网络的输出，预测阶段定义网络的输出为分类器得到的概率信息。

注意: 训练程序应该返回一个数组，第一个返回参数必须是 avg_cost。训练器使用它来计算梯度。

Optimizer 配置

在下面的 Adam optimizer，learning_rate 是学习率，与网络的训练收敛速度有关系。

def optimizer_program():

return fluid.optimizer.Adam(learning_rate=0.001)

训练模型

Data Feeders 配置

cifar.train10() 每次产生一条样本，在完成shuffle和batch之后，作为训练的输入。

Trainer 程序的实现

我们需要为训练过程制定一个main_program, 同样的，还需要为测试程序配置一个test_program。定义训练的 place ，并使用先前定义的优化器。

训练主循环以及过程输出

在接下来的主训练循环中，我们将通过输出来来观察训练过程，或进行测试等。

训练

通过trainer_loop函数训练, 这里我们只进行了2个Epoch, 一般我们在实际应用上会执行上百个以上Epoch

注意: CPU，每个 Epoch 将花费大约15～20分钟。这部分可能需要一段时间。请随意修改代码，在GPU上运行测试，以提高训练速度。

train_loop()

一轮训练log示例如下所示，经过1个pass，训练集上平均 Accuracy 为0.59 ，测试集上平均 Accuracy 为0.6 。

图13是训练的分类错误率曲线图，运行到第200个pass后基本收敛，最终得到测试集上分类错误率为8.54%。

图13. CIFAR10数据集上VGG模型的分类错误率

应用模型

可以使用训练好的模型对图片进行分类，下面程序展示了如何加载已经训练好的网络和参数进行推断。

生成预测输入数据

dog.png 是一张小狗的图片. 我们将它转换成 numpy 数组以满足feeder的格式.

Inferencer 配置和预测

与训练过程类似，inferencer需要构建相应的过程。我们从params_dirname 加载网络和经过训练的参数。我们可以简单地插入前面定义的推理程序。现在我们准备做预测。

总结

传统图像分类方法由多个阶段构成，框架较为复杂，而端到端的CNN模型结构可一步到位，而且大幅度提升了分类准确率。本文我们首先介绍VGG、GoogleNet、ResNet三个经典的模型;然后基于CIFAR10数据集，介绍如何使用PaddlePaddle配置和训练CNN模型，尤其是VGG和ResNet模型;最后介绍如何使用PaddlePaddle的API接口对图片进行预测和特征提取。对于其他数据集比如ImageNet，配置和训练流程是同样的，请参照Github https://github.com/PaddlePaddle/models/blob/develop/PaddleCV/image_classification/README_cn.md。

参考文献

[1] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.

[2] K. Chatfield, K. Simonyan, A. Vedaldi, A. Zisserman. Return of the Devil in the Details: Delving Deep into Convolutional Nets. BMVC, 2014。

[3] K. He, X. Zhang, S. Ren, J. Sun. Deep Residual Learning for Image Recognition. CVPR 2016.

[4] He, K., Zhang, X., Ren, S., and Sun, J. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ArXiv e-prints, February 2015.

[5] http://deeplearning.net/tutorial/lenet.html

[6] https://www.cs.toronto.edu/~kriz/cifar.html

[7] http://cs231n.github.io/classification/

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

12-19

神策智能运营新升级，如何助力企业实现高效精准营销？

12-19

顺丰控股11月收入稳健增长6.73%，供应链及国际业务增速亮眼

三言科技12月19日消息，今日，顺丰控股公告，2024年11月公司速运物流业务及供应链和国际业务合计收入为251.96亿元，较2023年同期236.08亿元增长6.73%。其中，速运物流业务收入为188.02…

12-19

荣耀股东变动引关注，官方称系股权架构调整

三言科技12月19日消息，近日，多则网传荣耀新一轮股改已完成。据媒体报道，荣耀的股东名单已经发生变更，有国资背景的股东显示退出。信息显示，9月刚刚加入的新股东杭州微同股权投资合伙企业（有限合伙），于11月退出…

12-19

顺丰航空引领！国内全货机首次SAF商业飞行成功落地

12-19

中央经济工作会议力推哪些新兴经济模式？

12-19

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

12-19

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

12-19

宠物粮市场乱象频发，铲屎官如何为宠物选对粮？

据“趣解商业”了解，“源鲜”曾是网易严选、喵梵思等国产中高端品牌多次合作的代工厂，在不少养宠人心中有较高信任度；“源鲜”的塌房，再次挑动了许多养宠人的神经。 Erica还提到，宠粮本质上属于快消行业，并不是靠…

12-19

柔韧机器人：具身智能的新赛道与革命性突破？

相比于现阶段普遍使用的基于电机关节、金属材料、复杂传感器和精密加工工艺的“刚性”机器人技术，万勋科技通过使用软性材料与气/液驱动，以软材料仿生肌肉和神经元智能复刻人类肌肉柔韧特性，具备轻巧灵活、安全互动、易…

12-19

北京中关村科学城国际医谷开工，打造医疗健康产业集聚新高地

作为项目建设推进方，北京海新域城市更新集团相关负责人介绍，中关村科学城国际医谷项目将在产业链上游吸引顶尖研发机构和企业，汇聚创新源头力量；在中游通过公共技术服务平台降低研发门槛，助力创新的想法实施；在下游建…

12-19

《猎人克莱文》IGN仅评3分，高成本制作却换来低质口碑？

12-19

中兴通讯股价异动，公司称生产经营正常，无未公开重大信息影响股价

12-19

顺丰控股11月速运物流营收微增，供应链及国际业务增长超两成

12-19

澳门风情画轴展开，智界新S7穿梭其中成焦点

12-19

点击查看更多 +

全站最新

TCL万象分区技术：Mini LED电视画质跃升的新篇章

挪威电动车热销，特斯拉陶琳：寒冷地区电动车可完全替代燃油车

宝马Skytop M8 Targa限量版来袭，概念车终成真！

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

《黑神话：悟空》获赞，海信E8共绘中国文化出海新篇章

值得买科技荣获卓越发展大奖，创新驱动消费产业高质量发展

热门内容

本栏最新

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

神策智能运营新升级，如何助力企业实现高效精准营销？

顺丰航空引领！国内全货机首次SAF商业飞行成功落地

中央经济工作会议力推哪些新兴经济模式？

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.