飞道的博客

VCIP2020:面向机器视觉的HEVC码率控制

211人阅读  评论(0)

本文来自VCIP2020文章《A Novel Visual Analysis Oriented Rate Control Scheme for HEVC》

深度学习的发展使得计算机视觉任务得到长足进步,但是压缩造成的图像和视频的纹理及特征的失真会影响计算机视觉任务的性能。文中提出了新的码率控制模型RJD(Rate-Joint-Distortion model),它引入了机器视觉失真。RJDO(Rate-Joint-Distortion Optimization)是一个双曲线模型,通过lambda乘子求解。

RDJO

RDJO问题描述如下:

其中R是实际码率,R_c是目标码率,D*是联合失真,包括信号失真Dt和机器视觉失真Dp两部分,权重分别为wt和wp。

通过拉格朗日优化可以将公式(1)的约束优化问题转化为非约束优化,

求(3)的最优解需要J*对R求导,

根据公式(5),求lambda需要构建D*和R的模型。Dt和R满足双曲线关系,这里假设Dp和R也满足双曲线关系,

其中Cp和Kp是模型参数。

不失一般性,机器视觉以目标检测为例,Dp定义如下,

P(0)是在未压缩视频上进行目标检测的mAP,P(R)是在压缩后视频上检测结果。Dp取值在0到1间。

为了验证(6)的有效性,使用HEVC的部分官方测试序列做实验,首先,在不使用码率控制的情况下用不同QP编码序列并记录对应码率。第二,使用Faster RCNN模型(ResNet-101作为特征提取器)进行目标检测。注意,ground truth box不是手工标定的,而是通过先进的目标检测算法在未压缩视频上进行目标检测并将置信度大于0.8的作为ground truth box。最后,使用(6)拟合结果R-Dp模型,R用bpp表示,Dp用(7)计算。Fig.1是部分拟合结果。

对于R-D*模型,也假设其为双曲线模型,

由于Dp取值在[0,1]间,而Dt是MSE取值空间更大,所以将Dp乘以255。Fig.2是使用不同wt和wp,公式(8)的拟合结果。

最终选取wp=0.9,wt=0.1,并通过更多实验拟合出下面模型,

在HM16.16上对比R-D*模型和R-D模型,如Fig.3。可以发现在低码率情况下联合失真更大,表明在低码率下机器视觉失真更大。

模型参数更新规则和HEVC相同。

QP-lambda模型

本文QP-lambda模型和HEVC相同,使用大量序列重新拟合参数,

实验结果

实验选择的序列如表1所示,编码配置为RA,每个序列编码5秒,选取5个码率点如表2。

实验比较了本文算法和HM 16.16的码率控制算法,从三个方面评价。第一,码率控制准确性,用下式BE计算。第二,信号失真,用亮度分量的PSNR计算。第三,机器视觉失真,选取了两种热门的计算机视觉任务,目标检测和人体姿态估计。目标检测的ground truth构建方法和前面一样。人体姿态估计的ground truth使用HRNet-w48构建,预测使用Pose-ResNet-101。

实验结果如表3,AP1是所有类别目标检测的mAP,AP2是行人目标检测的mAP,AP3是姿态估计的mAP。可以看见两种算法的PSNR相近,AP1,AP2,AP3分别提升0.85%,1.18%,1.54%。

感兴趣的请关注微信公众号Video Coding


转载:https://blog.csdn.net/Dillon2015/article/details/116571623
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场