聊聊“元宇宙” —— 设备篇

概要引言

这将会使一系列的文章,主要谈及有关“元宇宙”一些话题。本篇则作为整个系列概要,后期将持续更新本文。

“元宇宙”是骗人的吗?
元宇宙有两种基本粒子:傻子和骗子
许多傻子围绕骗子高速旋转,形成元宇宙构成物质的基础:元子
在外界高能“概念”的激发下,傻子跃迁到高能态,短暂时间后跃迁回低能态,
与此同时向外界寄出票子

众所周知,“元宇宙”是《雪崩》这一小说中所描述的虚拟现实世界的称谓。而当前之所以被大量提及,则更多是因为在2021年10月28日,Facebook将公司更名为Meta。当下,“元宇宙”这一称谓的商业意义要大于技术意义。它更多的是企业对于未来业务的描述或愿景的总称,而非当前实际存在的事物。

本系列文章主要探讨“元宇宙”所涉及的技术。而“元宇宙”是否是骗人这一问题,在了解这些技术后,或许你会有自己的认识。

此外,在CSDN上也会同步发一些开发有相关的教程。

本篇引言

PC是互联网的入口,手机是移动互联网的入口。按这样惯性推理,“元宇宙”也应该有着入口。当前主流的观点认为这样的设备应该属于AR眼镜

VR?AR?XR?MR?


VR(Virtual Reality)是通过某些设备在数字空间模拟现实环境,以使人产生沉浸感。模拟本身不一定要完全还原真实世界,但需要建立在真实世界法则的认知基础上。不合理的模拟无法使人信服,甚至可能产生排斥反应。因为VR技术要建立一个完备的仿真世界,所以其涉及的技术可能是极其复杂。当前消费市场对于VR的认识主要集中在VR显示方面。如果对模拟的真实度要求更高,称为 Digital Twins(数字孪生)可能更为恰当。

AR(Augmented Reality)是通过某些设备将数字信息附加于现实环境,以增强人们对于现实环境的认知。AR并不需要对现实世界的法则进行模拟,而是将数字信息映射到现实空间即可。从则一点来说,AR相对于VR是更为容易实现的。但也正因此,在AR市场上的产品更是鱼龙混杂,参差不齐。后面将详细说明。

简单的说,VR的主体是数字空间,而AR的主体的现实空间。

在AR的一般定义基础上增加对于现实环境的认识和模拟后则通常称之为MR(Mixed Reality)。而如果将以上所有的都进行包括,则一般称之为XR(Extended Reality)。

VR、AR、MR、XR


“网上的东西都是虚拟的,你把握不住的”


在上面对于VR/AR的说明中,我有意避开虚拟一词,而采用“数字”或“信息”等描述。之所以如此是因为当前有的人会只觉得认为“虚拟”是没有价值的。“数字”或“信息”的虚拟性是相对于实物而言的,而非价值上没有意义。而对于“数字”或“信息”的“价值”与“价格”的问题,后面应用篇章中会有所讨论。总之,因为“虚拟”就断言此事物是完全没有意义是不正确的。

那一年


消费类VR头显进入一般大众的视野应该是Oculus在2014被Facebook后。本人有幸在2014年拿到了Oculus DK1。

2015年,HTC 推出 Vive,采用 Vavle的 Lighthouse技术。Lighthouse使用基站的扫描激光与设备上的光敏传感器。其测量光敏传感器接收信号的时间差,并将其转换为相对激光基站设备的夹角,进而通过三角测量的方式来获得设备的位姿信息。(工作演示可以参考:https://www.youtube.com/watch?v=J54dotTt7k0)HTC 的 Vive 在很长时间可以说是VR设备的代名词。


Lighthouse 工作原理


2015年,谷歌推出了Tango手机。其使用摄像头、深度摄像头(ToF)和IMU来进行设备的定位并对环境进行三维重建。这也就是后来的ARCore的前身。相应的技术为SLAM(Simultaneous Localization and Mapping)一直在移动机器人有关的应用中使用。彼时谷歌采用的则是基于MSCKF 的视觉惯导算法。

Project Tango


2015年,微软推出了Hololens。其搭载专用的HPU,其使用摄像头、深度摄像头(ToF)和IMU来进行设备的定位并对环境进行三维重建,并提供基于光波导技术的光学穿透显示(Optical See-through)。

Hololens


然而,同一时期,2015年的China Joy上,在体验过国内的暴风魔镜后,因失望,我便不打算深入当时国内的VR头显领域,而是专注于三维传感等方面的技术。

其后大量的低劣的VR进入市场,VR市场的集体崩溃也是众所周知的事情。

如今,从创业期便一直在其工作的三维传感企业如今已经走上了上市的道路,然而发展到一定规模的企业是难以投入到新的领域的。多年过去,我还是放不下VR/AR这个方向,于是去年离开,重新扎回了VR/AR方向。

定位技术


定位是作为VR头显的首先要完成的功能之一。这也就是头显姿态(Pose)的定位与跟踪。姿态包括位置(Position)与方向(Orientation)。位置一般使用X,Y,Z所组成的直角坐标系表示。方向的表示一般采用四元数的表达,但通常会使用 Roll-Pitch-Yaw 这样的欧拉角表示。也因此,VR头显被分为了3DoF与6DoF两种。3DoF仅具有方向信息。6DoF则具有完整的位姿信息。

3DoF的VR头显使用IMU(惯性测量单元),通过对设备的线性加速度和角加速度测量进行解算(互补滤波或卡尔曼滤波等算法)。IMU虽然可以做相对位置的计算,因为本身的噪声,偏移等问题,其可靠性很差。并且仅仅计算相对位置,对于很多应用是完全不够的。

6DoF的VR头显定位方式的不同,分为Outside-in和Inside-out两种。

Outside-in使用外部基站对设备进行定位,主要的方式有Lighthouse和Constellation

Lighthouse前面以及说过,这里不再说明。

Constellation是Oculus的方案。在已知固定的红外Led标记点相对位置的情况下,通过基站摄像机对设备上的红外Led标记点进行捕获,来计算设备位姿。其本质是计算机视觉中的PnP(Perspective-n-Point)问题。当前的多数带有光环的控制器手柄,实质仍就采用此种方式。不过如见,在计算方法,数据同步,通信方式上都有了不小的改进。(可参考:https://developer.oculus.com/blog/tracking-technology-explained-led-matching/)

                                                                Oculus DK1 HMD
                                                                Qusest Controller

此外还有采用Outside-in超声波或者磁场的定位方案,但由于抗干扰性都较差,很少有产品采用。

Inside-out则可以看作是将基站放置于设备上,通过基站对外部信号进行测量来进行定位。

Inside-out多采用视觉方案。早期发展中,既有在外部放置QRCode的,也有放置红外标记点(Marker)的。如今的Inside-out则多数通过提取图像中的视觉特征(Feature)来来进行定位跟踪。无论何种方式,都是要获得特定地标(Landmark)的位置(Position)信息,并通过跟踪位置信息的变化来得到头显的位姿(Pose)。

Stream VR 早期原型测试房间


但是,当图像中的视觉特征也发生移动的时候,仅依靠视觉特征的Inside-out的定位系统将出现抖动,甚至丢失的情况。另外,视觉图像的获取也具有较高的时间间隔(曝光时间与帧率),这在一定程度上会影响体验。因此,当前的主流VR定位系统并不采用纯视觉定位(v-slam)方案,而是采用 视觉惯导系统(vi-slam)。

视觉惯导系统常见于移动机器人和无人飞行器中,现在的很多 扫地机器人 中也有很多装载此技术。(Oculus的方案就是脱胎于苏黎世联邦理工学院,学习机器人方面的人对这个学校应该不会陌生)直到2018年出,微软将其在Hololens上的定位技术以授权的方式提供给各家生产WMR头显。然而实际此授权并不含有算法,而仅仅是设备的有关技术要求。例如三星玄龙实际定位部分的硬件就是一个典型的USB双目惯导设备(ov7251+lattice fpga+CYUSB3064),而不具有任何复杂计算能力。这也导致大量WMR产品体验较差。其后2018年9月,Oculus推出的Quest才第一在千元价位将视觉惯导系统做入到了VR头显。(有关Oculus的 Insight 定位系统 参考:https://tech.fb.com/ar-vr/2019/08/the-story-behind-oculus-insight-technology/ )

当前 视觉惯导定位系统 的运用使得 VR头显不再需要特意配置使用空间,极大的简化了VR使用过程。而高通因为与Oculus的合作,更是使得此类方案成为了现在的主流一体VR。

这也叫VR/AR?


有些 连姿态都无法有效获得,仅是将一个显示单元放置于头部提供视觉信息的设备也称自己为 VR/AR。这样的设备头戴式显示器(HMD)由来已久,其显示内容因为固定在头部的特定区域,也称为 Head-Locked。例如 2012 的 Google Glasses 就是如此。此类产品在很多资料中,会归类到Smart Glasses 一类里面,用以和VR/AR产品区分 。 这类 VR/AR 与 大众的认知差别极大,国内有许多企业却是在拿此类产品充当VR/AR产品来售卖的。

显示,显示还是显示


显示强调再多也不为过,因为消费者直观对于VR/AR产品的体验就是显示的效果。也正因为如此,大量厂家在产品宣传上也是着重说自己的显示参数如何如何的优秀。然而NED(Near-Eye Dispaly)和传统的显示有着很大的区别。

因为眼睛距离与屏幕距离变得很近,显示效果本身不再能使用屏幕分辨来评测。因为VR镜片的存在一般需要将PPI(Pixels Per Inch)改为 PPD(Pixels Per Degree)。了更到的帧速和响应速度,不少设备支持Foveated Rendering技术,这因为这屏幕的显示分辨率将不再相同。此为因为最终需要形成双目的立体视距,每个人的视距,屈光都不相同,对于图像的感官体验也会有较大的差异。

因为显示的重要性,VR方面的主要厂家的同价位产品上,显示效果一般差别不会很大。然而随着VR显示技术进一步分发展,短焦、变焦、眼动等技术的支持,VR显示会迎来新的产品差异化。

因为Optical See-through的显示技术仍存在很大的问题,当前的AR产品众多,且普遍在显示方面都有问题,很难具有评判的基准。如今许多国内的AR眼镜厂商采用了Birdbath的技术方案,也是为了尽快推出产品的折中的方案,其距离理想的AR显示技术还有非常远的路要走。(有关AR的一些显示技术和对比,可以参考 https://kguttag.com/)

混乱的AR市场

而对于VR,可以采用Video See-through来避开AR显示的问题,但同时,这又将面临深度估计,图像校正,延时等方面的一系列问题。

Oculus Quest Passthrough


“你吵到我用TNT了”


就像是键鼠对于PC,触摸屏对于手机,VR/AR也应该拥有一个合适的交互方式。对于当前的VR/AR产品提供的交互有:手柄控制器,手势跟踪,视线与凝视控制,语音识别等。如果仅考虑游戏这一使用场景,手柄控制器仍是较为合适的手段。但如果考虑到易用性,则必须提供手势跟踪的能力。对于AR一类产品,又有很多会将手柄控制器直接换为手机,并使用手机上的功能来提供交互能力。

在手柄控制器方面,Valve index通过在手柄上增加电容阵列,使用接近图像识别的深度学习方式使得手柄具有了识别手势的能力(硬件使用的是Cirque的),提供了更好体验,Sony预期也采用类似技术(https://dl.acm.org/doi/abs/10.1145/3313831.3376712)。而Facebook则计划提供基于EMG的腕带控制器(https://tech.fb.com/ar-vr/2021/03/inside-facebook-reality-labs-wrist-based-interaction-for-the-next-computing-platform/)。除此之外,还有很多第三方厂商集中在提供力反馈方面的产品。

Steam Index 的电容传感阵列


在手势跟踪方面,Hololens因为其Depth Sensor的存在以及HPU的加持,在手势跟踪方面的体验要高出不少。而Oculus通过传统视觉的方式也实现了手势跟踪功能,而近期要更新的Hand 2.0 版本将有更大的改善,但相较于采用Depth Sensor的手势识别还存在一些差距。除此之外,收购了Leap Motion的Ultraleap公司也在配合一些企业继承手势功能,但这种合作的结果可能不会很理想。

而视线与凝视以及语音识别的交互方式从现在看,还是有些TNT了。

在路上


就设备方面来说,当前VR处于正常的起步期,可以说是迈过了1.0的门槛,作为一个电子产品品类,已经能提供必要的功能,随着市场的继续扩大,会有更多人接触和使用。而至于AR,想在VR完善前就发展AR市场,就像是想在PC技术前发展手机一样。这并不是说不能做AR,而是说其市场的规模和接收度是需要一个过程的,当前的AR市场则是一个相对较小,并且不成熟的市场。此外基于 Video See-through 的 VR/AR双模的设备 在逐渐的发展,其大有可能替代 一般意义上基于Optical See-through的AR设备。

或许,我们仍需等待苹果来敲击下地面才能看清道路吧。

猜你喜欢

转载自blog.csdn.net/iceyuool/article/details/124394761