根据Cisco VNI数据,预计到2022年,全球CDN流量规模将达到252EB/m,其中,互联网视频流量占比呈逐年上升趋势。在视频行业高速发展的过程中,带宽、网络得以丰富,视频的高清体验不断提升,分辨率从1k、4k到8k,甚至到超高清。从生物学角度,满足人眼真正的沉浸式需要50k分辨率。高清视频的发展使得用户对视频/图像质量的要求永无止境,其真实体验感受评测难度也相应增加,如何全面客观评价视频画质的质量是否得到提升?
“针对以上难题,金山云发布图像视频感知评价指标Kingsoft Cloud Perceptual Assessment(KPA),希望以此助力行业实现‘让视频更高清’的目标。”金山云高级研发总监樊鸿飞在近日的LiveVideoStackCon 2020北京(音视频技术大会)上表示。
比VMAF应用范围更广
当下,主观质量评价和客观质量评价是行业内两大类图像视频质量评价方法,其中客观质量评价分为全参考评价指标、半参考评价指标和无参考评价指标。据樊鸿飞介绍,目前,能够达到商用级的评价指标非常少,学术界的评价指标主要都是针对有非常明确边界条件约束的场景。商用级的全参考评价指标目前除了PSNR和SSIM之外,就是Netflix在2016年发布的VMAF了,VMAF是第一个开源的商用评价指标,也是高清视频领域的并经之路。无参考评价指标主要有BRISQUE、NIQE和VSFA,金山云KPA选择了无参考这个赛道。
KPA与VMAF的区别在于,一方面VMAF是全参考的画质视频指标,而KPA是一组无参考的画质视频指标,KPA可以应用在全参考来计算DMOS,同时KPA除了通用的整体质量评价外,还包括子维度质量、局部质量等细分评价指标,应用范围更广泛;另一方面,VMAF针对高清PGC视频有比较强的能力,针对UGC没有进行特殊优化,而KPA主要针对UGC视频。
金山云KPA主要希望用客观指标来衡量人眼的主观感受。“然而在画质评测行业,用客观指标来衡量主观质量一直以来都是一个世界难题。由于设备分辨率、观测距离、屏幕大小的区别等,观看同一段视频的主观质量体验会存在差距。此外,除了整体分数以外,还有各个子维度的分数,比如色彩、亮度、清晰度、畸变等。另外还涉及到网络卡顿问题、VR视频......,问题非常复杂。因此,金山云KPA并不是用一个算法来解决所有的事情,目前发布的KPA主要针对于UGC视频,对于播放场景的映射也是针对于常用场景,同时我们也在探索包括子维度评价、局部评价、评价映射等主观评价的各细分业务场景指标。”樊鸿飞表示。
在UGC场景排名问鼎
针对现有评价指标算法,尤其是无参考评价算法精度较低的问题,金山云KPA主要从两个方向进行了重点研究和优化:一个是数据筛选,另一个是模型攻防。
在数据层面,通过收集各种场景下UGC及PGC视频,并保证至少50以上的专业评测人员对每个视频进行主观评测,从源头上避免数据主观评测波动和精度问题。同时,对收集到的数据,从内容、场景、质量等多个维度进行平衡筛选,在确保数据规模远超业界开源数据的基础上,提升数据的多样性。在模型层面,通过攻防设计、协同学习、困难样本挖掘等方法,提升模型的鲁棒性和精度,在UGC场景中SROCC和gMAD分数均优于业界知名的有参考算法VMAF。
金山云KPA可以有效应用于编码及AI方向,避免或减少画质损失,提升视频或图像主观质量。在编码方向,通过KPA对视频进行场景级、帧级等全局质量预测分析,块级局部质量预测分析,结合JND模型作为其最小可察觉主观失真衡量,并由此自动决策出编码所需要的CRF、QP等参数,能更好地匹配人类视觉主观系统,消除视觉感知冗余,在保证主观质量相同的情况下降低码率或者在相同码率下提升主观质量;在AI增强方向,通过将KPA的全局/局部/子维度评价作为不同侧重点的loss或者判别器加入到模型训练中,指导模型朝更好的画质方向进行优化,进一步提升主观画质。
“在近几年对AI的研究中发现,这项技术可在众多领域广泛应用,且能大幅度提升各领域的原有性能。在画质评测相关的任务中,AI也帮助我们大幅度提升了SROCC和PLCC等指标。未来,我们的重点研究方向包括:1.进一步提升KPA泛化性,完善对各分辨率视频映射能力;2.提升视频编码中JND、RDO等模块算法主观质量;3.利用KPA进行更好的超分辨率、去噪等AI算法研发;4.针对相机拍摄所需要的偏色、暗场、畸变等维度研究评价指标。一方面,我们希望KPA能够抛砖引玉,吸引更多学术界的学者来关注企业应用中真正的诉求;另一方面,希望KPA能够帮助视频行业进一步提升视频质量,推进视频高清应用的发展。”樊鸿飞在演讲最后表示。