融云在WICC2021分论坛分享视频编码优化技术-业界动态-ITBear科技资讯

7月24日，以“新视界·连未来”为主题的2021全球互联网通信云大会(以下简称WICC 2021)在北京成功落下帷幕。来自主办方全球互联网通信云领导厂商融云的视频算法专家黄震坤在“RTC新技术与应用”技术分论坛中，分享了《基于人工智能的视频编码优化》的演讲。

图1 WICC 现场融云视频算法专家黄震坤发表演讲

根据美国思科公司的相关研究报告，到2022年，全球移动数据流量将达到每年930艾字节，相当于通过全球网络每5分钟传输一遍有史以来所有电影的流量，视频流量占移动数据流量的比例将飙升至79%。巨大的传输压力下，视频编码压缩技术就显得尤其重要。因此，本届 WICC黄震坤聚焦于视频压缩的前沿技术，针对不同场景需求，为开发者阐述了视频编码方向的最新研究成果、融云的探索实践，以及该领域未来的发展前景。

融云在监控场景的视频压缩技术及解决方案

WICC 2021上，黄震坤以交通监控视频场景为例，阐述了随着智慧交通的快速发展，交通监控视频的数据量呈现爆炸式增长，给现有的传输和存储系统带来了巨大的压力，因此，提高监控场景视频压缩的压缩效率显得至关重要。

黄震坤认为，要对交通监控视频进行高效压缩，就必须根据该场景特点，将背景区域和运动区域细致区分。典型的背景区域包括建筑、树木等，在画面中占比较大，且相对固化、变化不大;运动区域包括车辆、行人等，只占整个视频区域的一小部分。典型的监控视频如图2所示，运动的车辆即为前景区域。整体而言，视频的相邻帧之间的变化细微，应成为监控视频压缩关注的重点。

图2 典型的监控场景

针对这些特点，业界早期的做法是在重建帧中选择出长期参考帧，并与己有短期参考帧组合，一起供当前待编码帧做帧间预测的参考。但是，选取的长期参考帧可能包含有前景物体，导致背景帧“不干净”。

为了解决这个难点，融云采用 LaBGen-P 的方法提取背景帧，这是由于 LaBGen-P 采用了像素级中值滤波的机制，基于运动检测的选择机制，选择运动最小的像素作为背景像素。通过帧间差的运算，可提取到纯背景帧的视频效果。

并且，用 LaBGen-P 的方法提取背景帧，将获取的背景帧加入到长期参考帧列表，不但可以避免网损和解码错误会导致解码器出现错误，导致误差扩散到后续的P帧，而且利用反馈机制与长期参考帧相结合，还有助于修复丢失的视频数据。

实验表明，和原始没有加入背景帧的 OpenH264 编码器相比，可将标准测试集中的测试视频

CiscoVT2people_320x192_12fps.yuv，从原始的 56KB 减少到 54KB。

感兴趣区域的视频压缩技术研究模型及实践探索

不同的场景人们的关注重点会有所不同。仍以智慧交通为例，交警对于违章车辆的关注点是车牌号，车牌号是否清晰，将直接影响执法证据的收集是否有效。因此，在带宽有限的情况下，确保兴趣关注区域的质量是视频压缩技术的关键。

传统编码方法致力于对图像进行去相关处理，这种方法虽然可以达到去除信息冗余度的效果，但是忽略了视觉冗余。因此，在最新研究中，典型做法是，通过对视频进行目标检测来获取感兴趣区域，再对感兴趣区域分配更多的码率，从而提高该区域的编码质量。图3即为典型的采用目标检测技术检测到的感兴趣区域，并进行码率分配的效果，感兴趣区域的编码质量得到保证。

图3 典型的基于目标检测码率分配效果

如何向感兴趣区域分配更多的码率，黄震坤分别向开发者介绍了学术界代表武汉大学的理论研究和产业界代表融云的探索实践。

武汉大学在2021年提出了基于博弈论的码率分配方案模型，具体内容包括：

感兴趣区域编码质量为领导者，非感兴趣区域的编码质量为跟随者;

在设定的目标码率下，领导者决定感兴趣区域分配的码率，而跟随者决定非感兴趣区域的分配的码率;

对于感兴趣区域来说，它的效用不仅取决于自身，而且影响到整个图像的编码质量;

非感兴趣区域只能利用余下的码率达到最优的效用。

而融云的感兴趣区域的视频编码方案是，将运动区域检测和基于博弈论码率分配方案相结合，整合为基于场景的感兴趣区域检测和码率分配方案。这一方案的特点主要体现在训练不同的 yolo 模型，采用同一个预训练模型 yolo，训练不同的场景。

图4 融云感兴趣区域视频编码方案

具体地说，针对人的视频采用训练好的基于人的目标检测模型，针对车的视频采用训练好的基于车的目标检测模型。其中运动检测的方法选用Vibe，为每个像素点建立一个样本背景模型(背景模型中包含N 个样本值)，计算待分类像素与背景模型的相似度，如果相似，则分类为背景。

图5 目标和运动检测结合的感兴趣区域提取效果

通过实验可以看出，提取了感兴趣区域之后，采用基于博弈论的方法分配感兴趣区域和非感兴趣区域的码率，最终在有限带宽的情况下，使得感兴趣区域的编码质量获得提高，整体的编码质量也损失不大。具体效果见图6所示，人脸部分的量化系数比背景区域的量化系数要小，在带宽受限的情况下，能够保留人脸部分的细节。

图6 基于感兴趣区域的码率分配效果

视频压缩技术的最新研究和应用前景

目前在视频压缩的研究方面，主要是基于人工智能的深度学习技术和端到端的视频压缩框架。

深度学习技术替换混合编码框架模块，可用于码率分配、块划分以及帧内预测和帧间预测。以帧间预测为例，实验结果表明，与 HEVC 相比，基于深度学习所提出的方法在low delay P配置下，能达到平均1.7%(最高为8.6%)的码率减少。端到端的视频压缩框架最新研究成果是对现有深度学习视频压缩，只能利用少数的参考帧进行压缩的问题, 研究人员提出了重复自编码器和重复概率估计模型。

黄震坤介绍，这些技术目前都尚处于非常前沿的研究阶段，但拥有着非常广阔的应用前景：首先，采用深度学习网络替换视频压缩的混合编码框架，可以提高编码效率，在 WebRTC 中具有重要的应用价值;其次，深度强化学习网络对码率进行分配，将改善在使用 WebRTC 视频传输中的卡顿现象;第三，基于深度学习的带宽估计模型也将比传统的带宽估计方法更有优势。

结语

在实时音视频领域，视频压缩是非常重要的技术。随着5G基础设施的完善，新的视频应用场景不断涌现，视频压缩技术也在迭代。为了确保视频高质量和高传输效率，视频压缩技术要考虑存储、编解码、算力和带宽等因素在内的总成本，要在画质、码率和性能之间做平衡。随着 5G 基础设施的完善，新的视频应用场景不断涌现，视频压缩技术也会不断迭代创新。而融云将深度参与其中，引领发展!