2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding

本文介绍了一种用于提升视频编码性能的神经网络预测增强方法NNIP,它结合了残差估计网络、组合网络和深度细化网络。通过利用空间冗余预测和神经网络优化,NNIP能生成更精确的预测块,尽管复杂度较高,但有助于提高编码效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

帧间预测是混合视频编码框架的关键组成部分,旨在利用视频序列中的时间冗余,提高编码性能。在相互预测过程中,通常使用运动估计和运动补偿从参考图像中得到一个预测块。为了提高预测的编码性能,该文提出了一种基于神经网络的预测增强(NNIP)。NNIP由残差估计网络、组合网络和深度细化网络三种网络组成。

1. Framework of NNIP

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HHL1IveU-1649063325997)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404161816480.png)]

NNIP的输入为当前块和预测块的空间相邻L形,以及预测块,分别用LCL_CLCLPL_PLPPPP表示,如图2所示。预测块是在传统的内部预测中使用运动补偿来生成的。NNIP的输出是一个精炼的残差。

2. Residue Estimation Network

残差估计网络的目的是捕获当前块与其预测块之间的变化。由于当前块尚未被重建(解码端),因此无法直接推导出当前块与其预测块之间的变化。因此,提出了残差估计网络,利用空间邻域L-形状来估计残差。

本文利用一个全连接网络(相邻不规则像素区域,卷积也无法使用)实现了残差估计网络。如图3所示,残差估计网络的输入值分别为LCL_CLCLPL_PLPLCL_CLCLPL_PLP分别由当前块及其预测块的左、左上、上方的相邻像素组成。残差估计网络的输出是估计的残差。残差估计网络由四个全连通层组成。除了最后一层外,每一个全连接的层之后都有一个非线性的激活层。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0Mle7Az-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404162440624.png)]

对于大小为N×N和宽度大小为M的L区域,第一层的维度为K=4MN+2M2K=4MN+2M^2K=4MN+2M2LCL_CLCLPL_PLP被重塑为KKK维向量作为输入。第二层和第三层的维数为2K2K2K。最后一层是N2N^2N2维的。输出被resize为一个N×N块。

用R表示残差估计网络。R的输入和输出用X=LC,LPX={L_C,L_P}X=LCLPR(X)R(X)R(X)表示。RRR可以描述如下:
R1(X)=f(W1(R))⋅X+B1(R)Ri(X)=f(Wi(R)⋅Ri−1(X)+Bi(R)),1<i<4R(X)=W4(R)⋅R3(X)+B4(R)(1) R_1(X)=f(W_1^{(R)})\cdot X+B_1^{(R)} \\ R_i(X)=f(W_i^{(R)}\cdot R_{i-1}(X)+B_i^{(R)}), 1<i<4 \\ R(X)=W_4^{(R)}\cdot R_3(X)+B_4^{(R)} \tag 1 R1(X)=f(W1(R))X+B1(R)Ri(X)=f(Wi(R)Ri1(X)+Bi(R)),1<i<4R(X)=W4(R)R3(X)+B4(R)(1)
其中,Wi(R)W_i^{(R)}Wi(R)Bi(R)B_i^{(R)}Bi(R)是第iii层的权重和偏差参数。f()f()f()是一个非线性映射函数。

3. Combination Network

本文设计了一个组合网络,首先提取估计的残差和预测的块的特征图,然后将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导深度细化网络中的残差细化。图4描述了组合网络的结构。输入是估计的残差和预测的块。输出是连接的特征映射。组合网络由卷积神经网络实现,由一个卷积层和一个连接层组成。卷积层之后是一个非线性激活层(即PReLU),其特征映射的数量和滤波器的大小被设置为64和3×3。

4. Deep Refinement Network

图5描述了深度细化网络的结构。输入是由组合网络导出的特征图。输出是一个精炼的残差块。深度细化网络由卷积神经网络实现,由一个输入卷积层、两个卷积块和一个输出卷积层组成。每个卷积块由三个卷积层组成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fBtbneuq-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404164057952.png)]

需要注意的是,D2,D5D_2,D_5D2,D5分别是图5中两个卷积块的第一个卷积层,他们将两个不同核大小的子卷积层连接在一起。它可以用D2=concat(D21×1,D23×3)D2=concat(D_2^{1×1}, D_2^{3\times 3})D2=concat(D21×1,D23×3)D5=concat(D51×1,D53×3)D_5=concat(D_5^{1×1},D_5^{3×3})D5=concat(D51×1D53×3)来表示。

深度细化网络的输出是一个细化的残差块,需要将其添加到预测块中,得到一个更准确的预测块如下:
P′=D(Y)+P(3) P^{'}=D(Y)+P \tag 3 P=D(Y)+P(3)

5. Loss function

混合编解码框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y29U8THF-1649063325999)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165508023.png)]

结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ErymOcpH-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404165823906.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Kufy7WMk-1649063326001)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220404170731696.png)]

总结

  1. 提出了一种基于神经网络的视频编码间预测增强方法,该网络由残差估计网络、组合网络和深度细化网络组成
  2. 设计了一个残差估计网络,利用当前块与其预测块之间的空间相邻像素来估计当前块之间的残差
  3. 提出了一种组合网络来提取估计的残差和预测的块的特征图,并将这些特征图连接在一起。因此,可以充分利用预测块中的纹理信息来指导残差的细化。
  4. 提出了一种深度细化网络,将连接的特征映射作为输入,得到一个细化的残差,并将其添加到预测块中,得到一个更精确的预测块

但是有着较高的复杂度。

Reference

Reference:Neural Network-Based Enhancement to Inter Prediction for Video Coding

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值