1.研究背景

视频背景替换技术是指从视频序列中提取前景信息并将其融合到新背景中的过程，在图像处理和视频编辑领域占有重要地位，具有较高的研究价值和较广的应用空间。视频背景替换技术的核心算法分为视频抠图和图像融合两个部分，然而早期方法存在严重的限制和缺陷，其主要表现为：早期抠图算法限制背景和约束特定拍摄环境进行交互式绿幕抠图，极大限制了拍摄背景、增加了制作成本、锐减了抠图速度；早期图像融合算法对于前景信息丢失严重且缺少数据化评价标准，直接导致融合图像失真，人物颜色虚假。因此，如何减少视频抠图成本、改善视频抠图质量、提高图像融合效果是本课题的主要研究方向。
本文通过对现有图像分割和图像融合技术进行研究改进，提出并实现了改进Deeplabv3+算法和改进PoissonEditing算法，分别用于解决现有的视频抠图和图像融合问题，并联合视频风格迁移算法在终端设计实现了视频人物背景替换系统。

2.图片演示

3.视频演示

基于改进Deeplabv3+的视频人像背景替换系统（源码＆教程）_哔哩哔哩_bilibili

4.算法流程图

5.Deeplabv3+简介

在 Deeplabv2 提出可以调整感受视野和特征响应的工具空洞卷积后，为了解决多尺度的图像分割问题，谷歌提出了 Deeplabv3 网络[3]。该网络主要设计了空洞卷积并行架构操作，相比较之前的其他分割网络效果显著，并且在 voc2012 获得极佳的效果，为了解决图像分割网络存在的连续池化与下采样操作带来的像素点定位困难和多尺度目标等问题，Deeplabv3 提出了空洞卷积在网络层的有效运用和对 ASPP 模块的改进等。
a) 深层次的空洞卷积

b) 改进 ASPP

如上图Deeplabv3 重新改进了 Deeplabv2 中提出的 ASPP 空间金字塔池，其中在特征图的顶端采用了四个具有不同动态速率的平行空洞卷积。ASPP 空间金字塔池对不同尺度的特征进行重新采样以准确有效地对任意尺度的区域进行分类是有效的。与 Deeplabv2 不同，Deeplabv3 在 ASPP 中包括批量标准化。不同采样率的 ASPP 设计有效的捕捉了更多的采样信息和多核尺度特征，然而采样率和滤波器权重是反比关系，更多的采样率不可避免的导致了权重数量下降。如图所示，当处于极端情况时，若应用 3x3 卷积映射 65x65 特征将会导致捕捉特征失效，同时 3x3 卷积实际生效的只有中心滤波权重从而退化为 1x1卷积工作。

6.算法改进

参考该博客提出的改进方法，首先由编码器与解码器并联，通过将 Deeplabv3 作为编码器，由 DCNN 生成多维度特征，遵从 ASPP 规则从而增加感受视野，并通过对输出特征反卷积操作。然后解码器与 Canny 边缘检测串联，利用边缘校正通道算法对深度学习模型分割的人体图像进行后处理。

Deeplab3+输出前景图

参考该博客提出的改进 Deeplabv3+算法原理，编码层前端采用空洞卷积获取浅层低级特征，传输到解码器前端；编码层后端采用 vgg-16[7]获取深层高级特征信息，并且将 output_stride 为 16 的特征矩阵传输到解码器。解码器接收到高级特征信息，经过双线性上采样得到 output_stride 为 4 的256 通道特征 A；同时为了占比重相同，本文采用 1x1 卷积降通道，将浅层分辨率特征通道降低到 256，从而增强模型学习能力。随后解码器将特征 A 与特征 B做网络层连接(concat)，再经过一个 3x3 的特征卷积细化。最后，在解码器后端经过再双线性 4 倍采样得到深度学习分割预测结果。为了方便后端 Canny 算法产生精准边缘，本文将接收到原图与深度学习分
割经过标签映射得到前景图，前景图计算由公式得到：