第一次工作进展报告

随着沉浸式虚拟现实（VR）技术的发展，360°视频越来越多地被使用，然而，与传统的视频内容传输相比，其具有更高的带宽和更低的延迟要求，如何传输高分辨率低时延的视频内容是虚拟现实技术发展的关键性问题。

在“A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities”一文中，作者从视频投影、编码、动态调整视口大小的自适应360°视频流方法、传输360°视频流网络相关解决方案、视口预测、体验质量QoE评估等多方面概述了虚拟现实视频传输方面的挑战和研究机会。

在视频投影方案中，作者介绍了四种现有的投影方法，等矩形投影（如图1）、立方体贴图投影（如图2）、金字塔投影（如图3）以及偏移立方图投影（如图4）。等矩形投影是最为常见的投影技术，其可以表示为使用偏航角、俯仰角的值将观察者周围的球体展平到二维表面上，常见的例子有世界地图。立方体贴图投影是六边立方体组合用于将球体的像素投影到立方体上相关像素，这种投影方式常用于游戏和视频流媒体（如：YouTube）。金字塔投影方式在视口相关投影中，显示区域的保真度高于其它区域，这种方法将视频的大小减少了80%，但其缺点较为突出，即当用户的头上下移动120°或左右旋转180°，视频质量会急剧下降。偏移立方图投影与传统的立方体贴图技术类似，将像素投影到立方体的六个面，它具有与偏移方向相关联的观看区域以更高的质量显示的特点，缺点是存储开销大。

图1 图2

图3 图4

在视频编码方面，目前高效的视频编码HEVC/H.265相比于VC/H.264节省了近50%的视频比特率，其支持高效视频流的平铺功能。如图5，背景一般是不动的，在这种情况下，我们的做法不是对每一帧的每一个像素编码，而是对最初的帧编码，然后仅对发生改变的进行编码。与HEVC/H.265相比，下一代通用视频编码（VVC）标准有望将压缩效率提高30%。

图5 .264与H.265编码对比

在自适应360°视频流方案中，主要分为三类，与视口无关、与视口相关以及基于切片的流。与视口无关的流是360°视频流传输的最直接的方式，因为整个帧以类似传统视频的同等质量传输整个视频流，它的优点是不需要头戴式显示设备（HMD）的任何方位信息，缺点是与视口相关的流相比，它的编码效率低30%，需要大量的带宽和编码资源。与视口相关的自适应流中，终端设备仅接受特定区域的视频帧，这些区域包含视口角度相等或更大的视觉信息，客户端根据网络特征和用户的观看方向执行自适应。在“Optimal set of 360-degree videos for viewport-adaptive streaming”一文中，描述了一种为视口相关流产生不同质量片段的实用方法。他们提出了质量强调区域(QERs)策略，以在有限数量的表示可用于流式传输时缩放特定区域的分辨率。而在“Optimized Viewport Dependent Streaming of Stereoscopic Omnidirectional Video”一文中，提出一种通过巧妙地将不对称质量用于立体视频的背景和前景视图的方法，以高质量传输前景视图，以较低质量传输背景视图。在基于切片的自适应流中，360°视频被分割成相等/不相等的矩形块，以精确地调整观看者当前视口块的质量。在“Towards Bandwidth Efficient Adaptive Streaming of Omnidirectional Video over HTTP: Design, Implementation, and Evaluation”一文中，研究了三种平铺策略，即基本完全交付、高级完全交付和部分交付，使用最先进的视频编解码器有效地节省了360个视频中未观看部分的资源。如图6所示，基本完全交付是在用户当前视口中可见的所有图块都以最高可能的质量表示（绿色图块）进行请求，而此时不可见的所有其他图块都以最低可用质量表示（红色图块）进行请求。高级完全交付是要求预计用户的视口将移向的图块（黄色图块）以更高的质量传输。部分交付是所有其他切片(即当前视口外的那些)根本不被请求。在“HEVC tile based streaming to head mounted displays”一文中，提出一种使用HEVC编码器的基于切片的可变分辨率流系统，如图7所示，该系统将立方体贴图360°视频平铺成24个网格，每个代表一个单独的比特流，以两个不同质量的版本被流式传输到客户端，即八个高质量的瓦片和十六个低质量的瓦片。

图6 三种平铺策略

图7 基于切片的可变分辨率流系统

在传输360°视频流网络相关解决方案中，“Fov-aware edge caching for adaptive 360 video streaming”一文基于其他用户的观看行为，为360°视频引入了一种流行的内容(如FoV)缓存策略，次策略中客户端的质量适应有两个主要组成部分:FoV预测和吞吐量估计。自适应算法每100毫秒从客户的FoV中提取样本，并使用10个最近的FoV样本作为加权线性回归(WLR)方法的输入，以预测未来的FoV。吞吐量估计中，吞吐量样本是下载一个视频片段时达到的估计吞吐量。网络吞吐量估计是通过平均最后三个吞吐量样本来完成的。文中提出基于优先级的取舍方式，优先级与当前的网络吞吐量以及是否位于客户端的FoV内有关，当缓存已满时，移除具有最低优先级的切片。而“MUVR: Supporting multi-user mobile virtual reality with resource constrained edge cloud”一文提出了多用户虚拟现实(MUVR)框架，其中边缘云自适应地存储和重用冗余VR帧，以减少计算和传输负载。例如在每个用户端有一个小的本地缓存，在边缘有一个相当大的中央缓存。这种缓存设计通过为所有用户生成背景视图，尽可能重用框架来减少内存需求。

在视口预测中，可根据与视频内容相不相关进行分类，与视频内容不相关的方法一般使用观看者的头部运动数据进行视口预测，在“Delay Impact on MPEG OMAF’s tile-based viewport-dependent 360◦video streaming”一文中，考虑了两种预测变量:角速度和角加速度，用于根据用户的先前方位数据来估计他/她的未来头部方位。而在“Predictive View Generation to Enable Mobile 360-degree and VR Experiences”一文提出一种预测视频生成的方法，提取预测视图并提前传输，从而同时减少带宽和延迟。本文收集来自三星虚拟现实网站上的36000多名观众的19段视频的头部运动数据，将用户视野使用基于平铺的格式来表现视点特征，每个网络尺寸为30°×30°，则360°可分为72块，根据过去2s的视点轨迹来预测视点，设计one-hot编码，将视点表示为72×10的矩阵V，V的元素为0或1。先前的视点分片序列输入本文提出的多层LSTM模型中，最终输出72个分片上的预测概率，选择m个概率最高的分片，组合成预测视场，高质量地传输预测视场，其余分片保存空白。在实验部分，文中比较了LSTM模型FOV的预测精度与SAE、BT、kNN模型FOV的预测精度，得出在低运动序列、中等运动序列和高运动序列中，LSTM模型FOV的预测精度优于SAE、BT、kNN模型的实验结论，并相较于上述模型拥有更大的像素节省，达到减少带宽和延迟的目的。

对于与视频内容相关的视口预测方法，“Fixation Prediction for 360 Video Streaming in Head-Mounted Virtual Reality”一文提出一种预测网络，可以同时利用传感器和视频内容相关的特性来预测未来观众的视口。视频内容相关包括图像显著图和运动图。作者提出训练深度神经网络来预测显著图，网络模型的前三层是预训练的VGG-16，在VGG-16后面接着两个附加层，以提高模糊图像显著图的泛化能力。而观看者的头部位置信息由HMD中的传感器采集，包括偏航角（yaw）、俯仰角（pitch）、翻滚角（roll）。文中的视口预测网络使用的是LSTM模型，网络的功能是预测观众在未来的视频中最有可能看哪里。如图8所示，本文提出两种LSTM网络，第一种网络的输入是显著图、运动图以及头部信息，第二种网络的输入是显著图、运动图以及当前观看者视口位置信息，两种网络的输出都是预测未来视频帧中观看者的观看概率。两种网络都以滑动窗口中m个过去视频帧的特征作为输入，并以预测窗口中n个未来视频帧为输出来预测切片的观看概率。文中使用的数据集是自己采集的12个观看者的信息，训练过程中将数据集80%作为训练集，20%作为测试集，使用交叉熵损失函数。

图8 两种LSTM网络模型

在体验质量QoE评估中，作者介绍了两种评估方法，主观评估和客观评估。在“Subjective and objective quality assessment of panoramic videos in virtual reality environments”一文中，提出了一种全景视频主观评价方法SAMPVIQ，此方法第一步为训练阶段，首先将参考视频16给观察者看，然后我们通知并播放了视频16从高到低质量的视频序列，目的是给观察者基本的预期得分。第二阶段预测试阶段我们选择了三组视频16，每组包含一个参考视频和三个经过处理的视频。视频播放完后，观察者打分，然后工作人员记录分数。完成三套后，我们比较了记录的分数和预期的分数。如果记录的分数与所有三组的预期相匹配，观察者就可以进入测试阶段。第三阶段测试阶段每个观察者观看6类全景视频。每类视频包含八组视频序列，每组包含一个参考视频和三个随机播放的已处理视频。视频播放时，观察者打分，然后工作人员记录分数。所有视频序列播放完毕后，测试结束。评分等级为0-5，最终结果可以描述为平均意见得分（mean opinion score，MOS）。而客观评估方法中，“Quality metric for spherical panoramic video”一文提出了一个克拉斯特抛物线投影-PSNR (CPP-PSNR)度量标准，通过将像素重新映射到CPP投影而不改变空间分辨率并计算实际像素位置的PSNR来比较各种投影方案。而在“Impact of V arious Motion Interpolation Algorithms on 360◦Video QoE”一文中指出仅仅在虚拟现实中测量视觉质量对于一个完整的QoE框架来说是不够的。找到其他因素的影响也很重要，例如网络疾病、生理症状、用户不适、HMD权重、可用性、VR音频、视口退化率、网络特性(例如延迟、抖动、带宽等)。

总结：高质量的360°视频内容的创建、分发和流式传输依然是一个关键性问题，除了上述提及的研究方向及其解决方法外，仍有许多问题可以进一步研究。例如：可以利用基于机器学习的带宽预测方法来捕获比特率分配的实际带宽模式。此外，基于多路径的高分辨率360°切片传输可以通过最佳可用路径提供高优先级切片，从而带来更好的性能和更大的灵活性。使用mmWave通信的自适应计算卸载研究可以支持室内和室外环境中的同步360°流。

第一次工作进展报告（论文阅读：A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities）

第一次工作进展报告

猜你喜欢