Deep3D 中文翻译及阅读笔记

版权声明:转载请醒目注明本文链接: https://blog.csdn.net/Xingyb14/article/details/83384653

Deep3D: 利用深度卷积神经网络的全自动 2D-3D 视频转换

原文:Junyuan Xie 等. 2016

摘要

  由于 3D 电影成为主流和 VR 市场的显露,对 3D 内容的需求迅速增长。然而,3D 视频制作面临着挑战。本文提出利用深度神经网络自动地将 2D 视频和图像转换为有立体感的 3D 格式。此前的 2D-3D 自动转换算法不是端到端的,且需要 ground truth 深度图来监督。我们的方法直接用从 3D 电影中提取出来的 立体对儿 进行端到端的训练。这种新的训练策略使得采用更大数量级的数据量成为可能,并且显著地提高了算法的表现。实际上,Deep3D 在定量的和人的主观评估上都有超过基线的表现。

关键词:深度估计,深度卷积神经网络

1 引言

  3D 电影非常流行并且占据着电影市场的很大一部分,在美国和加拿大,2010 到 2014 年间,3D 电影的票房在全部电影票房的 14% 到 21% 之间。此外,逐渐显露的头戴 VR 显示市场很有可能带来 3D 内容需求的增长。
  3D 视频和图像通常以立体格式存储。每一帧都包括同一场景的两个投影,一个暴露给观察者的左眼,另一个暴露给观察者的右眼,因此带给观察者以三维观看场景的体验。
  制作 3D 电影的方法有两种:直接拍摄 3D 格式,或者拍摄 2D 后转换成 3D。以 3D 格式拍摄需要昂贵的立体相机设备。除了设备成本外,阻止立体相机实用性的还有一些摄影技术问题。一些并不昂贵的特殊视觉效果,比如强制透视,就与多视点捕捉设备不兼容。2D-3D 转换提供了另一种制作 3D 电影的方式。专业的转换处理通常依赖于“深度艺术家”,他们手工地为每一帧创造深度图。然后利用标准的基于深度图像的渲染 (DIBR) 算法将原始帧和深度图相结合,得到一个立体的图像对儿。然而,由于这个工作需要大量的人力成本,所以花费依然非常高。
  每一年有 20 左右部新的 3D 电影发行。高昂的制作成本是阻碍 3D 电影行业发展的主要障碍。自动的 2D-3D 转换将会消除这一障碍。
  本文提出了一种全自动的,数据驱动的方法来解决 2D-3D 视频转换的问题。这个问题可以转化为从单张图片中推理出深度信息,然后为另一只眼睛合成一个新的视点。然而从一张图片中推理出深度 (或差异) 是一个高度不确定的问题。除此之外,新视点中的一些像素对应于原图片中不可见的位置,导致数据缺失,必须用填充算法补全,即使补全的部分是算法虚构的。
  尽管存在上述困难,我们认为有了 3D 电影中已经存在的大量立体帧对儿,就有可能训练出从给定视点得到新视点的机器学习模型。最终,我们设计了一个深度神经网络将左眼的视点作为输入,内部估计出一个可能的差异图,然后为右眼渲染出一个新的图像。我们在 ground truth 立体帧对儿上进行端到端的训练,目的是直接从一个视点预测出另一个视点。网络内部生成的差异图只是为生成一个好的右眼视点服务的。我们发现相比于用探索法得到差异图,即训练一个预测差异的模型,再用预测出的差异渲染新图,我们的方法训练起来更容易。我们的模型同样隐形地执行填充而不需要后处理。
  如何评估得到的 3D 场景的质量也是一个有价值的问题。定量评估方面,我们使用 3D 电影的数据集,在像素尺度上比较重建出的右视点和 ground truth 右视点。我们也进行了人类主观实验以展示我们的方案的有效性。我们将我们的方法与 ground truth 和 最好的单视点深度估计技术进行对比。定量和定性的分析都展现出了我们的方法的优势。

2 相关工作

  现有的 2D-3D 转换方法大致可以分为两个阶段。首先从一个输入视点估计出深度图,在用 DIBR 算法结合深度图和输入视点,得到立体对儿的另一个视点。从单张图片中估计深度的早期尝试利用手工设计的特征和线索包括离焦、散射和质地梯度。这些方法只依赖于一种线索。所以它们只在表现出特定线索的场景中表现优秀。然而实际上,人类是通过无缝地结合多种信息来感知深度的。

猜你喜欢

转载自blog.csdn.net/Xingyb14/article/details/83384653
今日推荐