滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

用上 Pytorch Lightning 这六招，深度学习 pipeline 可提速 10 倍

时间：2021-10-02 14:09:17 来源：量子位编辑：星辉 IP：北京 发表评论无障碍通道

面对数以亿计的图片数据，到底该用什么样的方法才能快速搞实验?

这样的问题，或许在做机器学习研究的你，也会经常遇到。

而就在最近，一个国外小哥就提出了一种建议：

在 Pytorch lightning 基础上，让深度学习 pipeline 速度提升 10 倍!

用他自己的话来说就是 ——“爬楼时像给了你一个电梯”。

这般“酸爽”，到底是如何做到的呢?

优化机器学习 pipeline，很重要

无论你是身处学术界还是工业界，时间和资源等各种因素，往往会成为你在搞实验的枷锁。

尤其是随着数据集规模和机器学习模型，变得越发庞大和复杂，让实验变得既费时又耗力。

提速这件事，就变得至关重要。

例如在 2012 年的时候，训练一个 AlexNet，要花上 5 到 6 天的时间。

而现如今，只需要短短几分钟就可以在更大的数据集上训练更大的图像模型。

这位小哥认为，从某种角度上来说，这是得益于各种各样的“利器”的出现。

例如 Pytorch Lingtning，就是其中一种。

于是，他便“死磕”pipeline，总结了六种“闪电加速”实验周期的方法。

并行数据加载

数据加载和增强(augmentation)往往被认为是训练 pipeline 时的瓶颈之一。

一个典型的数据 pipeline 包含以下步骤：

从磁盘加载数据

在运行过程中创建随机增强

将每个样本分批整理

在这个过程中，倒是可以用多个 CPU 进程并行加载数据来优化。

但与此同时，还可以通过下面的操作来加速这一过程：

1、将 DataLoader 中的 num_workers 参数设置为 CPU 的数量。

2、当与 GPU 一起工作时，将 DataLoader 中的 pin_memory 参数设置为 True。这可以将数据分配到页锁定的内存中，从而加快数据传输到 GPU 的速度。

使用分布式数据并行的多 GPU 训练

与 CPU 相比，GPU 已经大大加速了训练和推理时间。

但有没有比一个 GPU 更好的方法?或许答案就是：

多个 GPU!

在 PyTorch 中，有几种范式可以用多个 GPU 训练你的模型。

两个比较常见的范式是“DataParallel”和“DistributedDataParallel”。

而小哥采用的方法是后者，因为他认为这是一种更可扩展的方法。

但在 PyTorch(以及其他平台)中修改训练 pipeline 并非易事。

必须考虑以分布式方式加载数据以及权重、梯度和指标的同步等问题。

不过，有了 PyTorch Lightning，就可以非常容易地在多个 GPU 上训练 PyTorch 模型，还是几乎不需要修改代码的那种!

混合精度

在默认情况下，输入张量以及模型权重是以单精度(float32)定义的。

然而，某些数学运算可以用半精度(float16)进行。

这样一来，就可以显著提升速度，并降低了模型的内存带宽，还不会牺牲模型的性能。

通过在 PyTorch Lightning 中设置混合精度标志(flag)，它会在可能的情况下自动使用半精度，而在其他地方保留单精度。

通过最小的代码修改，模型训练的速度可以提升 1.5 至 2 倍。

早停法

当我们训练深度学习神经网络的时候，通常希望能获得最好的泛化性能。

但是所有的标准深度学习神经网络结构，比如全连接多层感知机都很容易过拟合。

当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

因此，早停法 (Early Stopping)便在训练过程中加入了进来。

具体来说，就是当验证损失在预设的评估次数(在小哥的例子中是 10 次评估)后停止训练。

这样一来，不仅防止了过拟合的现象，而且还可以在几十个 epoch 内找到最佳模型。

Sharded Training

Sharded Training 是基于微软的 ZeRO 研究和 DeepSpeed 库。

它显著的效果，就是让训练大模型变得可扩展和容易。

否则，这些模型就不适合在单个 GPU 上使用了。

而在 Pytorch Lightning 的 1.2 版本中，便加入了对 Shared Training 的支持。

虽然在小哥的实验过程中，并没有看到训练时间或内存占用方面有任何改善。

但他认为，这种方法在其它实验中可能会提供帮助，尤其是在不使用单一 GPU 的大模型方面。

模型评估和推理中的优化

在模型评估和推理期间，梯度不需要用于模型的前向传递。

因此，可以将评估代码包裹在一个 torch.no_grad 上下文管理器中。

这可以防止在前向传递过程中的存储梯度，从而减少内存占用。

如此一来，就可以将更大的 batch 送入模型，让评估和推理变得更快。

效果如何?

介绍了这么多，你肯定想知道上述这些方法，具体起到了怎样的作用。

小哥为此做了一张表格，详解了方法的加速效果。

那么这些方法，是否对在做机器学习实验的你有所帮助呢?

快去试试吧~

参考链接：

https://devblog.pytorchlightning.ai/how-we-used-pytorch-lightning-to-make-our-deep-learning-pipeline-10x-faster-731bd7ad318a

更多>同类资讯

超哥汽车资讯：新能源汽车市场现状、趋势及产业链整合新动向

10-31

限时6.88万起！吉利银河星耀6携越级配置开启家轿新体验

10-31

2025东京车展：全新RAV4焕新登场，电气化升级，或成合资SUV新爆款

10-31

吉利银河星耀6正式登场携先进技术入局开启高品质出行新篇章

10-31

天翼智铃：AI智能体驱动彩铃革新，开启个性化创作与商务宣传新篇章

中国电信天翼智铃日前正式发布，这是AI视频彩铃深度融合AI智能体的升级产品，在传统彩铃服务基础上，构建以星辰大模型为基座、由星小辰智能体驱动全流程智能创作的内容服务中心。天翼智铃彻底改变了过去“搜索-选择-设…

10-31

手机换机数据迁移慢？实测金属盒“法拉第笼”原理加速传输

我们准备了两台主流旗舰手机，而且是不同厂商、不同定位的两代产品，然后往里面塞了将近100GB的数据，包括照片、视频、游戏和聊天记录，这基本就是很多人换机的真实写照了。其实，这背后并没有什么黑科技，它利用的…

10-31

苹果OLED布局提速：iPad多系列2026起升级，MacBook Pro/Air陆续跟进

苹果正推进OLED显示屏在多款设备中的应用，计划逐步以OLED技术取代现有的LCD屏幕。根据最新进展，iPad mini预计最早于2026年迎来OLED屏幕升级，同时将引入更先进的防水功能。即将在2026…

10-31

iQOO Neo11正式登场：旗舰性能加持，颜值续航双在线

此外，骁龙8至尊版能够高效处理更复杂的多模态生成式AI应用，使得iQOONeo11在处理速度、图像渲染和AI计算等方面表现出色，让用户尽享流畅、高效的使用体验。续航方面，iQOO Neo11内置7500m…

10-31

雷军“改价”背后：存储芯片涨价潮下，国产存储迎来崛起新契机

市场研究机构集邦咨询于9月的调查显示，三星电子、SK海力士和美光三大DRAM（主流内存芯片类型）原厂，正持续将产能优先分配给高阶服务器DRAM和HBM（高带宽存储器），直接导致手机、PC等消费电子设备所需的…

10-31

霸王茶姬融资历程：从云贵川小品牌到纳斯达克，张俊杰的逆袭之路

他们还聊到了愿景，张俊杰说，10年后，霸王茶姬会有15000家门店，会是国际化品牌。一位美元基金的投资人曾对我们说，类似霸王茶姬这样的公司和 founder他们是投不到的，“根本就不会认识，就算认识也是在能力…

10-31

人形机器人“进厂”打工潮：成本效率待突破，填补用工缺口成关键

2022年9月，特斯拉发布Optimus（擎天柱）机器人，那是一台没有外壳的原型机，但是视频展示了擎天柱在办公室搬箱子、浇花，以及在特斯拉工厂抓取和放置汽车零部件。秦文龙直言：“业内对于人形机器人会优先进入…

10-31

科创信息技术ETF摩根半日微跌0.07% 成交额219万重仓股涨跌互现

来源：新浪基金∞工作室 10月30日，截止午间收盘，科创信息技术ETF摩根（588770）跌0.07%，报1.496元，成交额219.07万元。科创信息技术ETF摩根（588770）重仓股方面，海光信息截止午…

10-31

风云T11全球上市：以百万级豪华实力搅动20万级SUV市场风云

10-31

一汽-大众里程碑时刻：第3000万辆整车一汽奥迪A5L在长春惊艳亮相

10-31

比亚迪前9月销量超326万完成目标超七成海外销量飙升136％显实力

10-31

点击查看更多 +

全站最新

雷军“改价”背后：存储芯片涨价潮下，国产存储迎来崛起新契机

人形机器人“进厂”打工潮：成本效率待突破，填补用工缺口成关键

风云T11全球上市：以百万级豪华实力搅动20万级SUV市场风云

一汽-大众里程碑时刻：第3000万辆整车一汽奥迪A5L在长春惊艳亮相

四维图新品牌升级“SEEWAY.AI”，构建软硬一体能力，智驾生态迈向新高度

Stellantis全新Hurricane 4 Turbo发动机：性能油耗双提升，适配多场景

热门内容

本栏最新

雷军“改价”背后：存储芯片涨价潮下，国产存储迎来崛起新契机

人形机器人“进厂”打工潮：成本效率待突破，填补用工缺口成关键

风云T11全球上市：以百万级豪华实力搅动20万级SUV市场风云

一汽-大众里程碑时刻：第3000万辆整车一汽奥迪A5L在长春惊艳亮相

四维图新品牌升级“SEEWAY.AI”，构建软硬一体能力，智驾生态迈向新高度

Stellantis全新Hurricane 4 Turbo发动机：性能油耗双提升，适配多场景

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.