虚拟现实（VR）和增强现实（AR）背后的核心技术是什么？

颠覆人类未来，「Magic Leap」实在太太太酷了！
看着很酷炫，应该很有应用前景。背后用的是计算机视觉（computer vision）和深度学习的技术么？还是用的3D建模的技术？

热心的小回应 · 2021-1-3 20:17:10

首先，VR得益于三维游戏的发展，而AR收益于影视领域的跟踪技术（video tracking）的发展。
从技术门槛的角度来说，VR、AR和移动端重合的技术有：显示器、运动传感器、处理器、储存&记忆、无线连接……所以在硬件上，这些都不是技术难点。
VR、AR的难点都在感知和显示，感知是一种mapping，VR mapping的是一个lighthouse的空间或者PS camera mapping的一个交叉；在显示上，VR如何精准地匹配用户的头部产生相应的画面，AR则在这基础上算出光照、遮挡等情况并让图像通透不干扰现实中的视线。

而VR硬件的难点在于光学的镜片技术和位置追踪技术，因为以前的移动端不涉及这些技术。
而AR的硬件难点在于显示和感知，显示最大的难点在于accommodation，因为用户看见虚拟物体固定在2-3米的位置，而现实物体却可以前后聚焦，如果这时虚拟物体放在现实物体上，则会引发辐辏→用户聚焦错乱；而在感知上，即使是有Kinect是十几年积累的hololens，它已经做到世界第一了，可它的spatial mapping仍需要花费很多时间去扫描去建模，至限在狭小的室内走来走去，而在室外就完全失效了。

当然，也因为这些技术的门槛，导致硬件价格居高不下。
正因为此，AR行业一片冷寂，而VR行业非常火爆，因为VR的技术门槛比AR低一个数量级，VR更容易成功。
—————————————————————————————————————
而从软件角度来说，现阶段视觉上的难点比较多：
VR的核心技术是tracking（追踪）和CG（计算机图形）。三自由度的方向追踪，六自由度的位置追踪（见《追踪设备的使用场景和覆盖范围有哪些局限？是否会影响VR可交互的空间的设计？》）
而AR的核心技术主要是
计算机视觉（computer vision）

物体识别（object recognition）。

包括人脸识别

区域识别

如果说广义的VR和AR还包括其他的交互方式，比如语音识别（speech recognition）

手势识别（gesture recognition）

—————————————————————————————————————
最近上Stanford的CV课学到的几个知识点搬上来——
AR要把虚拟物体整合（integrate）到现实环境中来，它需要摄像头来建立现实空间的坐标系。
三种图像配准（image registration）：
1. interest points（兴趣点）

—————————————————————————————————————
2. fiducial markers（基准标记）

—————————————————————————————————————
3. optical flow（光流）

—————————————————————————————————————
几种图形处理（ image processing）：
1. corner detection（角点检测）

2. blob detection（斑点检测）

—————————————————————————————————————
3. edge detection（边缘检测）

—————————————————————————————————————
4. thresholding（阈值）

……暂时想到这么多
—————————————————————————————————————
根据上面的图像配准（image registration）和图形处理（ image processing）建立现实世界的坐标系统（real world coordinate system）。

热心的小回应 · 2021-1-3 20:17:11

AR是人工智能和人机交互的交叉学科，基础技术包括CV（计算机视觉）、机器学习、多模态融合等，借凌老师去年的一篇文章简单科普AR技术。
作者亮风台信息科技首席科学家凌海滨
一、从现实到增强现实
增强现实（AugmentedReality，简称AR）和虚拟现实（VirtualReality，简称VR）概念的出现已经有了几十年的历史了，然而VR/AR大量出现在科技媒体上吸引各方眼球也就是最近的事情。
AR中的R是真实的R，相比之下，VR中的R就是个山寨版的。那么A这个增强的概念就比较广大虚了：笼统的说，凡是能对R有附加额外的信息的都算。再次强调的是，AR里面的信息是叠加到真实的场景里面的，而不是虚拟的场景（即VR）里面的。一个有意思的小众研究方向是将一部分真实场景中的内容叠加到虚拟场景中，学名AugmentedVirtualization，简称AV。

图2中的例子也许能更好地反映AR和VR的区别。上方显示的是典型的VR设备和人眼接收到的VR影像，下方则是AR设备和AR影像。简而言之VR和AR的区别是：VR是趋近现实；AR是超越现实。
接下来我们主要讨论AR，重点讨论AR和VR不同的那一部分。
二、AR中的视觉技术
[h1]增强现实技术流程[/h1]按照Ronald Azuma在1997年的总结，增强现实系统一般具有三个主要特征：虚实结合，实时交互，和三维配准（又称注册、匹配或对准）。近二十年过去了，AR已经有了长足的发展，系统实现的重心和难点也随之变化，但是这三个要素基本上还是AR系统中不可或缺的。

上图描绘了一个典型的AR系统的概念流程。从真实世界出发，经过数字成像，然后系统通过影像数据和传感器数据一起对三维世界进行感知理解，同时得到对三维交互的理解。3D交互理解的目的是告知系统要“增强”的内容。
在AR的技术流程中，中间的对于环境和交互的精准理解就是目前的瓶颈了。上图中间的基于多模态（简单说就是影像+传感器）的环境和交互理解，是两个充满了各种或明或暗的坑的领域，足以让很多假的猛士知难而退。
[h1]环境和交互理解的难点和机会[/h1]那么，真的猛士将会直面什么样惨淡和淋漓的坑群呢？下面我们来共同赏析几个常见坑型：
1、环境坑：据说人的脑细胞里面大多数都是用来处理和理解双眼所获取的视觉信息的，很多我们惊鸿一瞥就能理解和感知的东西得益于我们强大的脑处理能力。各种环境变化对视觉信息的影响我们不但能轻松应对，有时还能加以利用。比如我们的认知能力对光照明暗的变化相当的鲁棒；比如我们可以通过阴影来反推三维关系。而这些对于计算机（确切些说是计算机视觉算法）来说都是不折不扣的坑或者大坑。总的来说，成像环境的变化常常计算机视觉算法以及AR带来很大的挑战，所以我把相关的坑统称环境坑。
2、学术坑：对于环境和交互的理解重建基本上属于计算机视觉的范畴，计算机视觉是一个有着半个世纪积累的领域，和AR相关的学术成果可以成吨来计。夸张一点的说，每篇都有坑，区别只在大小深浅明暗。从实用的解决方案的角度来看学术论文，尤其是新的论文，一定要小心其中的设定和有些话外的信息，多想一下诸如该算法是否对光照敏感，是否可能在手机端达到实时，等等。简单的建议是：对于一篇计算机视觉的论文，未有相关经验的观众请在有相关训练的成熟观众陪伴下谨慎观看。
3、上帝坑：上帝是谁？当然就是用户了。上帝的坑当然得长得有创意，常常激起开发者灵光一动恍然大哭的欲望。比如上帝说，要能判别视频中人的性别，80%的准确度，100万。哇，你是不是感动的热泪盈眶（仁慈的上帝啊），用各种时髦的方法轻松超额10%搞定。可是，交货的时候上帝说你这个系统咋认不出我们家小baby的性别啊！Oh my God，你是不是又激动得想哭了。和环境坑比较像，CV的算法很多时候是需要有假设的，强烈的假设。那怎么办呢？上帝总是正确的，所以唯一的办法就是尽早教育上帝让他更加正确：需要苦口婆心地尽早和用户科普以及尽量明确定义需求，防范坑于未成。还不行的话咋办？上帝啊，请再加点工钱吧。
其实还有其他类型的坑，比如开源代码坑，这里就不详述了。那么，这么一个充满忧患的领域，为什么又会有那么多追随呢？最重要的原因就是巨大的应用前景和钱景了。往小了说，很多具体的应用领域（比如游戏）都已经成功地引入了AR的元素；往大了说，AR的终极形态可能从根本上改变当前的非自然人机交互模式（请脑补微软Win95的成功和现在的HoloLens）。上面说的那些坑，在很多是应用上，是可能避免的或者可能填得不那么深的。总的来说，一个好的AR应用往往是需要算法工程实现、产品设计、内容制作等方面的深度结合。
[h1]AR跟踪配准技术发展[/h1]
三维配准是链接虚实的最核心技术，没有之一。大致说来，在AR中配准的目的是对影像数据进行几何上的精确理解。这样一来，就决定了要叠加的数据的定位问题。比如说，在AR辅助导航中如果想把导航箭头“贴在”路面上，就一定要知道路面在哪里。在这个例子中，每当手机摄像头获取到新一帧图像，AR系统首先需要将图像中的路面定位，具体的说就是在某个事先设定的统一的世界坐标系下确定地面的位置，然后将要贴的箭头虚拟地放在这个地面上，再通过与相机相关的几何变换将箭头画在图像中相应的位置（通过渲染模块完成）。
如前所述，三维跟踪配准在技术上存在很多挑战，尤其在考虑到移动设备有限的信息输入和计算能力的情况下。鉴于此，在基于视觉AR的发展历程中，经历了从简单定位到复杂定位的几个阶段，下面简单介绍一下这个发展过程，更多的技术细节在下一节讨论。

二维码：和大家如今广为使用的微信二维码原理一样，二维码主要的功能在于提供稳定的快速的识别标识。在AR中，除了识别以外，二维码还兼职提供易于跟踪和对于平面进行定位的功能。因为这个原因，AR中的二维码比一般的二维码来说模式显得简单以便于精确定位。下图给出了AR二维码的例子。

二维图片：二维码的非自然人工痕迹很大得局限了它的应用。一个很自然的拓广是使用二维图片，比如纸币、书本海报、相片卡牌等等。聪明的小白朋友一定已经发现：二维码本身也是二维图片，那为啥不把二维码的方法直接用到二维图片上呢？哦，是酱紫：二维码之所以简单就是因为它上面的图案是设计出来的让视觉算法可以迅速的识别定位的，一般的二维图片则不具备这种良好的性质，也需要更强大的算法。并且，不是所有的二维图片都可以用来进行AR定位的。极端情况下，一个纯色的没有任何花纹的图片是无法用视觉的方法定位的。下图例子中，两张卡牌用来定位两个对战重点的虚拟战士。

三维物体：二维图片的自然扩展当属三维物体。一些简单的规则三维物体，比如圆柱状可乐罐，同样可以作为虚实结合的载体。稍微复杂一些的三维物体通常也可以用类似的方法处理或分解成简单物体处理，如在工业修理中的情况。但是，对于一些特定的非规则物体，比如人脸，由于有多年的研究积累和海量的数据支持，已经有很多算法可以进行实时精准对齐。然而，如何处理通用的物体仍然是一个巨大的挑战。
三维环境：在很多应用中我们需要对整个周围3D环境的几何理解，很长时间以来和可预期的一段时间以内，这一直是个充满挑战的问题。近年来，三维环境感知在无人车和机器人等领域的应用取得了成功的效果，这让人们对在其在AR中的应用充满憧憬。然而，相比无人车等应用场景，AR中可以使用的计算资源和场景先验常常捉襟见肘。受此影响，AR中的三维场景理解研发主要有了两个显而易见的思路，一是多传感器的结合，而是对于应用的定制。两个思路的结合也是实用中常见的手段。

在以上提到的技术中，二维码和二维图片的识别跟踪技术已基本上成熟，也已经有了广泛的应用。技术方面的发展目标主要是进一步提高稳定性以及拓宽适用范围。相比而言，三维物体和三维场景的识别理解还有很大的探索空间，即使是目前火爆的HoloLens所展现的令人惊艳的跟踪稳定性，从追求完美的角度还有很多可以提升的空间。
三、单目AR识别跟踪简介
由于识别跟踪的重要性，下面简单介绍一下AR中的二维图片跟踪和三维环境理解。二维码的技术已经很成熟而应用有较受限制，三维物体识别的技术大致上介于二维图片和三维场景之间，所以就偷懒不提了。
[h1]二维平面物体的AR跟踪[/h1]一般情况下， AR中二维平面物体的跟踪可以归结为如下问题：给定一个模板图片R，在视频流中时刻检测该图片的（相对相机的）三维精确位置。比如在下图的例子中，R是实现知道的人民币图片，视频是从手机端实时获取的，通常记为It (表示在时间t获得的视频图像），而需要得到的是R在It 中的几何姿态（通常包括三维旋转和平移），记为Pt。换句话说，模板图片R通过由Pt表示的三维变换就可以被贴到它在图像It中的位置。跟踪结果的用途也很显然，既然知道了这个姿态Pt，我们可以用一个美元的图片以同样的姿态叠加到视频中来替换人民币，从而达到6倍以上的炫富效果。好吧，例子中没有那么俗气，而是叠加了一个庄严的视频。

那么，上面例子中的跟踪定位是如何做到的呢？主流的方法大致有两类，一类是直接法（directmethod，有时也称为全局法），另一类叫控制点法（keypoint-based）。

直接法：直接法里的“直接”是说直接用优化方法去找最好的目标，即姿态Pt。这里牵涉到三个主要元素：（1）怎么定义好和不好，（2）在哪里找Pt，（3）怎么找。对于（1），一个直观的办法是：假设模板图按照姿态Pt变换后对应图像It上的一个小区域，那么这个区域可以抠出一个图像T，T（经过归一化以后）应该和模板R长得越像越好。对于（2），我们可以在所有可能的姿态中去找Pt。不过这个策略显然是很费时的，考虑到在视频中相邻图像帧的变化有限，所以我们通常是在上一时刻的姿态（通常记为Pt-1）附近去寻找。至于怎么找，这就转化成一个优化问题了，简单的说，就是要在Pt-1的一个邻域里面找一个Pt，使得通过Pt抠出来得图像块T和R最相似。

当然，实际操作时候上面三个部分都各有讲究。比如（1）中对于T和R是否相似可能要考虑光照的变化，（2）中如何定义姿态空间的邻域以及合理的邻域大小，（3）中具体用什么样的优化算法来尽量对抗局部极值的干扰而又不能太耗时。不同的处理方式产生出了不同的跟踪算法，其中典型的代表工作之一是ESM算法和它的一些变种。
ESM是EfficientSecond-order Minimization的缩写，源自Benhimane和Malis在2004年在IROS上发表的工作。该算法采用重构误差平方作为衡量R和T相似性的指标，然后对于姿态空间进行了在李群（Lie Group）上的重新构建使得搜索的步长更为理性，在寻优上面使用的二阶近似的快速算法。这个算法的结构清晰，各模块都可以比较容易的独立扩展，所以在其基础上衍生出了不少改进算法，通常是针对实用场景中不同的调整（比如处理强光照或者运动模糊）。

控制点法：基于控制点的方法由于其实时高效成为目前业内主流方法。控制点类的方法并不直接对姿态Pt进行寻优，而是通过控制点匹配的方法来计算Pt。控制点法的一个典型流程参见图9。其基本出发点在于使用图像中特别的点（通常是角点）来建立模板R和视频图像It的之间的映射，通过该映射建立方程组，然后求解出姿态Pt。比如说模板是一张人物的相片，那么我们在视频中定位的时候并不需要对于脸上的所有点进行匹配，而可以通过一些控制点（眼角，鼻尖，嘴角等）迅速定位。

稍微数学一点的解释是这样的：由于姿态Pt是由若干参数（一般是8个）控制的，那么求解Pt的一个办法是弄一个方程组出来，比如说8个线性的方程，那么我们就可以求出Pt了。那么这些方程怎么来呢？我们知道，Pt的作用是把模板R变到图像It中，也就是说R中的每个点经过一个由Pt决定的变换就可以得到它在图像中的位置。那么，反过来，如果我们知道图像中的一个点（比如眼角）和模板中就是同一个点（就是说他们匹配上了），我们就可以用这一对匹配点给出两个方程（X、Y坐标各一个），这样的点就是所谓的控制点。当我们有了足够多的控制点对以后，就可以求解姿态Pt了。
总结起来，控制点法包括三个主要元素：（1）控制点提取和选择，（2）控制点匹配，（3）姿态求解。控制点的基本要求一是要能从周围环境中脱颖而出（减少位置上的歧义），而是要经常而且稳定地出现（易于找到）。各种图像中的角点因此闪亮登场，各种PK。比较知名的有SIFT、SURF、FAST等。注意，上述排名分先后的：按照能力来说越往前越好，按照速度来说越往后越好。实际应用中可以根据用户机型做决定。那么，这些点提取后就可以用了吗？No，一般来说还需要进行取舍：一是要去掉没用的点（即outlier），二是使选取后的点尽量均匀以降低不必要的误差，同时也要防止点太多带来的大量后续计算。控制点匹配的目的是在两个图像的控制点集间找到匹配的点对（鼻尖对鼻尖，眼角对眼角）。通常这个由控制点之间的相似性和空间约束协同完成。简单的方法有紧邻匹配，复杂的基本上二分匹配的各种变种（bipartitematching or two-dimensional assignment）。完成了匹配之后，就可以求解得到姿态Pt了：由于通常使用的点数远多于最小需求（为了稳定性），这里的方程数目远大于未知变量的数目，所以最小二乘法之类的解法在这里会派上用场。
以上三个步骤初看起来泾渭分明，实际使用时却经常是交织在一起的。主要原因是很难保证得到精确无误的控制点。有用的可靠控制点常常夹杂在各种真假难辨的山寨们一起到来，所以经常需要往返迭代在三个步骤之间，比如用RANSAC之类的方法选择控制点来得到服从大多数的姿态。相比直接法，控制点法的基本算法框架比较成熟，工程实现上的细节很大程度上决定了算法的最终效果。
这两类方法的优缺点根据具体实现略有不同，大致上可以总结如下：

这两类方法的优缺点有很明显的互补性，所以一个自然的想法就是二者的结合，具体的方式也有不同变种，这里就不罗嗦了。
[h1]三维环境的AR跟踪[/h1]对于三维环境的动态的实时的理解是当前AR在技术研究方面最活跃的问题。其核心就是最近火热的“即时定位与地图构建”（SLAM，SimultaneouslyLocalization And Mapping），在无人车，无人机和机器人等领域也起着核心作用。AR中的SLAM比其他领域中一般难度要大很多，主要是因为AR赖以依存的移动端的计算能力和资源比起其他领域来说要弱很多。目前在AR中还是以视觉SLAM为主，其他传感器为辅的局面，尽管这个情况正在改变。下面的讨论主要局限于视觉SLAM。
标准的视觉SLAM问题可以这么描述为：把你空投到一个陌生的环境中，你要解决“我在哪”的问题。这里的“我”基本上等同于相机或者眼睛（因为单目，即单相机，请把自己想象成独眼龙），“在”就是要定位（就是localization），“哪”需要一张本来不存在的需要你来构建的地图（就是mapping）。你带着一只眼睛一边走，一边对周边环境进行理解（建图），一边确定在所建地图中的位置（定位），这就是SLAM了。换句话说，在走的过程中，一方面把所见到（相机拍到）的地方连起来成地图，另一方面把走的轨迹在地图上找到。下面我们看看这个过程大致需要哪些技术。
从图像序列反算出三维环境的过程，即mapping，在计算机视觉里面属于三维重建的范畴。在SLAM中，我们要从连续获取的图像序列来进行重建，而这些图像序列是在相机的运动过程中采集的，所以相关的技术就叫基于运动的重建（SfM，Structurefrom Motion）。题外话，SfX是视觉中泛指从X中进行三维重建的技术，X除了运动以外还可以有别的（比如Structurefrom Shading）。如果相机不动怎么办？很难办，独眼龙站着不动怎么能知道周围三维的情况呢？原理上来说，一旦获取的两张图像之间有运动，就相当与有两个眼睛同时看到了场景（注意坑，这里假设场景不动），不就可以立体了吗？这样一来，多视几何的东西就派上用场了。再进一步，运动过程中我们得到的实际是一系列图像而不只是两张，自然可以用他们一起来优化提高精度，这就是令小白们不明觉厉的集束约束（BundleAdjustment）啦。
那么localization又是怎么回事呢？如果有了地图，即有了一个坐标系，定位问题和前述2D跟踪在目的上基本一致（当然更复杂一些）。让我们考虑基于控制点的方法，那么现在就需要在三维空间找到并跟踪控制点来进行计算了。很巧的是（真的很巧吗？），上面的多视几何中也需要控制点来进行三维重建，这些控制点就经常被共用了。那么可不可以用直接法呢？Yes wecan！但是，如后面会讲到的，由于目前AR中计算资源实在有限，还是控制点法经济实惠些。
从三维重建的方法和结果，SLAM大致可以分为稀疏、半稠密和稠密三类。下图中给出的典型的示例。

稠密SLAM：简单的说，稠密SLAM的目的是对所相机所采集到的所有信息进行三维重建。通俗的说，就是对看见的每一个空间上的点算出它到相机的方位和距离，或者知道它在物理空间的位置。在AR相关的工作里面最近的影响力较大的有DTAM和KinectFusion，前者是纯视觉的，后者则使用了深度相机。由于需要对几乎所有采集到的像素进行方位计算，稠密SLAM的计算量那是杠杠的，所以不是平民AR（比如一般的手机，手握6S/S7/Mate8的朋友不要侧漏傲气，这些统统都算“一般”）。
稀疏SLAM：稀疏SLAM的三维输出是一系列三维点云。比如三维立方体的角点。相对于实心的三维世界（比如立方体的面和中腹），点云所提供的对于三维环境的重建是稀疏的，是以得名。实际应用中，在这些点云的基础上提取或推理出所需要的空间结构（比如桌面），然后就可以根据这些结构进行AR内容的渲染叠加了。和稠密SLAM版本相比，稀疏SLAM关心的点数低了整整两个维度（从面堕落到点），理所当然地成为平民AR的首选。目前流行的稀疏SLAM大多是基于PTAM框架的一些变种，比如最近被热捧的ORB-SLAM。
半稠密SLAM：顾名思义，半稠密SLAM的输出密度在上述二者之间，但其实也没有严格的界定。半稠密SLAM最近的代表是LSD-SLAM，不过对于在AR中的应用，目前还没有稀疏SLAM热门。

由于稀疏SLAM在AR中的流行度，下面我们简单介绍一下PTAM和ORB-SLAM。在PTAM之前，由A. Davison在2003年提出的单目SLAM开创了实时单目SLAM的先河。这个工作的基本思想还是基于当时机器人等领域的主流SLAM框架的。简单地说，对于每一帧新到来的图像，进行“跟踪-匹配-制图-更新”的流程。然而这个框架在移动端（手机）上的效果和效率都不尽人意。针对移动端AR的SLAM需求，Klein和Murray在 2007年的ISMAR（AR领域的旗舰学术会议）展示了效果惊艳的PTAM系统，从而成为单目视觉AR SLAM的最常用框架，暂时还是之一。
PTAM的全称是ParallelTracking And Mapping，上面已经暗示过了，PTAM和之前的SLAM在框架是不同的。我们知道，SLAM对每一帧同时（Simultaneously）进行两个方面的运算：定位（Localization）和建图（Mapping）。由于资源消耗巨大，这两种运算很难实时的对每一帧都充分地实现。那我们一定要每一帧都同时定位和建图吗？先看定位，这个是必须每帧都做，不然我们就不知道自己的位置了。那么制图呢？很幸运，这个其实并不需要每帧都做，因为隔上几帧我们仍然可以通过SfM来感知场景。试想一下，把你扔到一个陌生的场景，让你边走边探索周边环境，但是每秒钟只让你看10眼，只要你不是在飞奔，相信这个任务还是可以完成的。PTAM的核心思想就在这里，不是simultaneously定位和制图，而是把他们分开，parallel地各自奔跑。这里的定位以逐帧跟踪为主，所以就有了tracking。而制图则不再逐帧进行，而是看计算能力而定，啥时候处理完当前的活，再去拿一帧新的来看看。在这个框架下，再配合控制点选取匹配等各项优化组合，PTAM一出场就以其在华丽丽的demo亮瞎观众（这可是近10年前啊）。
故事显然没有这样结束。我们都知道，demo和实用是有差距滴，何况还是学术界的demo。但是在PTAM思想的指引下，研究人员不断的进行改进和更新。这其中的佼佼者就有上面提到的ORB-SLAM。ORB-SLAM由Mur-Artal,Montiel和Tardos在2015年发表在IEEETransaction on Robotics上，由于其优异的性能和贴心的源码迅速获得工业界和学术界两方面的青睐。不过，如果打算通读其论文的话，请先做好被郁闷的心理准备。不是因为有太多晦涩的数学公式，恰恰相反，是因为基本上没有啥公式，而是充满了让人不明觉厉的名词。为什么会这样？其实和ORB-SLAM的成功有很大关系。ORB-SLAM虽然仍然基于PTAM的基本框架，不过，做了很多很多改进，加了很多很多东西。从某个角度看，可以把它看作一个集大成的且精心优化过的系统。所以，区区17页的IEEE双栏论文是不可能给出细节的，细节都在参考文献里面，有些甚至只在源码里。在众多的改进中，比较大的包括控制点上使用更为有效的ORB控制点、引入第三个线程做回环检测矫正（另外两个分别是跟踪和制图）、使用可视树来实现高效的多帧优化（还记得集束约束吗）、更为合理的关键帧管理、等等。
有朋友这里会有一个疑问：既然ORB-SLAM是基于PTAM的框架，那为啥不叫ORB-PTAM呢？是酱紫的：尽管从框架上看PTAM已经和传统SLAM有所不同，但是出于各种原因，SLAM现在已经演变成为这一类技术的统称。也就是说，PTAM一般被认为是SLAM中的一个具体算法，确切些说是单目视觉SLAM的一个算法。所以呢，ORB-PTAM就叫ORB-SLAM了。
尽管近年来的进展使得单目SLAM已经能在一些场景上给出不错的结果，单目SLAM在一般的移动端还远远达不到随心所欲的效果。计算机视觉中的各种坑还是不同程度的存在。在AR中比较刺眼的问题包括：

初始化问题：单目视觉对于三维理解有着与生俱来的歧义。尽管可以通过运动来获得有视差的几帧，但这几帧的质量并没有保证。极端情况下，如果用户拿着手机没动，或者只有转动，算法基本上就挂掉了。
快速运动：相机快速运动通常会带来两方面的挑战。一是造成图像的模糊，从而控制点难以准确的获取，很多时候就是人眼也很难判断。二是相邻帧匹配区域减小，甚至在极端情况下没有共同区域，对于建立在立体匹配之上的算法造成很大的困扰。
纯旋转运动：当相机做纯旋转或近似纯旋转运动时，立体视觉无法通过三角化来确定控制点的空间位置，从而无法有效地进行三维重建。
动态场景：SLAM通常假设场景基本上是静止的。但是当场景内有运动物体的时候，算法的稳定性很可能会受到不同程度的干扰。

对AR行业动态有了解的朋友可能会有些疑惑，上面说的这么难，可是HoloLens一类的东西好像效果还不错哦？没错，不过我们上面说的是单目无传感器的情况。一个HoloLens可以买五个iPhone6S+，那么多传感器不是免费的。不过话说回来，利用高质量传感器来提高精度必然是AR SLAM的重要趋势，不过由于成本的问题，这样的AR可能还需要一定时间才能从高端展会走到普通用户中。
四、SMART：语义驱动的多模态增强现实和智能交互
单目AR（即基于单摄像头的AR）虽然有着很大的市场（想想数亿的手机用户吧），但是如上文所忧，仍然需要解决很多的技术难题，有一些甚至是超越单目AR的能力的。任何一个有理想有追求有情怀的AR公司，是不会也不能局限于传统的单目框架上的。那么除了单目AR已经建立的技术基础外，AR的前沿上有哪些重要的阵地呢？纵观AR和相关软硬方向的发展历史和事态，横看今天各路AR诸侯的技术风标，不难总结出三个主要的方向：语义驱动，多模态融合，以及智能交互。遵循业界性感造词的惯例，我们将他们总结成：

SMART：SemanticMulti-model AR inTeraction

即“语义驱动的多模态增强现实和智能交互”。由于这三个方面都还在飞速发展，技术日新月异，我下面就勉强地做一个粗浅的介绍，表意为主，请勿钻牛角尖。
语义驱动：语义驱动在传统的几何为主导的AR中引入语义的概念，其技术核心来源于对场景的语义理解。为什么要语义信息？答案很简单，因为我们人类所理解的世界是充满语义的。如下图所列，我们所处的物理世界不仅是由各种三维结构组成的，更是由诸如透明的窗、砖面的墙、放着新闻的电视等等组成的。对于AR来说，只有几何信息的话，我们可以“把虚拟菜单叠加到平面上”；有了语义理解后，我们就可以“把虚拟菜单叠加到窗户上”，或者邪恶地“根据正在播放的电视节目显示相关广告”。

相比几何理解，对于视觉信息的语义理解涵盖广得多的内容，因而也有着广得多的应用。广义的看，几何理解也可以看作是语义理解的一个子集，即几何属性或几何语义。那么，既然语义理解这么好这么强大，为啥我们今天才强调它？难道先贤们都没有我们聪明？当然不是，只是因为语义理解太难了，也就最近的进展才使它有广泛实用的可能性。当然，通用的对任意场景的完全语义理解目前还是个难题，但是对于一些特定物体的语义理解已经在AR中有了可行的应用，比如AR辅助驾驶和AR人脸特效（下图）。

多模态融合：随着大大小小的AR厂家陆续推出形形色色的AR硬件，多模态已经是AR专用硬件的标配，双目、深度、惯导、语音等等名词纷纷出现在各个硬件的技术指标清单中。这些硬件的启用显然有着其背后的算法用心，即利用多模态的信息来提高AR中的对环境和交互的感知理解。比如，之前反复提到，作为AR核心的环境跟踪理解面临着五花八门的技术挑战，有些甚至突破了视觉算法的界限，这种情况下，非视觉的信息就可以起到重要的补充支持作用。比如说，在相机快速运动的情况下，图像由于剧烈模糊而丧失精准性，但此时的姿态传感器给出的信息还是比较可靠的，可以用来帮助视觉跟踪算法度过难关。
智能交互：从某个角度来看，人机交互的发展史可以看作是追求自然交互的历史。从最早的纸带打孔到如今窗口和触屏交互，计算机系统对使用者的专业要求越来越低。近来，机器智能的发展使得计算机对人类的自然意识的理解越来越可靠，从而使智能交互有了从实验室走向实用的契机。从视觉及相关信息来实时理解人类的交互意图成为AR系统中的重要一环。在各种自然交互中，基于手势的技术是目前AR的热点。一方面由于手势的技术比较成熟，另一方面也由于手势有很强的可定制性。关于手势需要科普的一个地方是：手势估计和手势识别是两个紧密相关但不同的概念。手势估计是指从图像（或者深度）数据中得到手的精确姿势数据，比如所有手指关节的3D坐标（下图）；而手势识别是指判断出手的动作（或姿态）说代表的语义信息，比如“打开电视”这样的命令。前者一般可以作为后者的输入，但是如果手势指令集不大的情况下，也可以直接做手势识别。前者的更准确叫法应该是手的姿势估计。

五、结语
增强现实的再度兴起是由近年来软硬件的进展决定的，是科学和技术人员几十年努力的推动成果。一方面，很幸运我们能够赶上这个时代提供的机会；另一方面，我们也应该警惕过度的乐观，需要脚踏实地得趟过每一个坑。

热心的小回应 · 2021-1-3 20:17:12

好吧，改题了，那就来补充一下。
AR 和 VR 是两个不同的概念。题主说的Magic Leap自己提了个HR还是MR的概念，就是混合现实。个人以为——“别以为你换个马甲我就不认识你了！” 本质上其实就是AR。

首先说一个基本概念，如果说VR硬件制造的难度等同造汽车，那么AR硬件的制作难度就等同于造宇宙飞船。为啥等我慢慢细说～

VR主要的核心点在于三个
1. 全视角的虚拟画面。这个就像你用IPHONE拍全景图一样，要生成一个实时动态的360度可见的世界，所谓的虚拟世界就是这么个基础。这个目前来说，通过既有的3D游戏引擎可以轻松实现。

2. 虚拟世界和现实世界的同步。这个东西听起来比较玄妙，其实原理不难。首先了解用户头部或者眼部的旋转动作，如果有侦测行走的，还需要侦测行走距离，然后快速、准确的反应到虚拟世界中去。比如脑袋转了半圈，那么虚拟世界中画面也要转相应的角度，这个是目前VR领域最最重要的。人们常说戴上VR头盔、眼镜时候有眩晕感，这个眩晕感就来自于不同步。但技术并不是什么高大上的技术，综合来讲，就是九轴动作感应器和相应的算法，难的是快、准。

3. 控制。这个各家有各路，有些是游戏手柄，有些是体感手柄，不细说了～

当然还有一些显示部分的，屏幕分辨率与放大镜片，但因为不需要考虑太多现实环境制约，各家没什么大区别。还有一些物理尺寸制约什么的。就不讲了。

转到AR，就是个技术巨坑了，AR的重点在于和现实世界叠加的显示。那么

STEP1：
感知和分析现实世界，要在对的位置显示对的内容，那就涉及到计算机视觉，深度传感器，gps等等，目的就是要让机器看懂你看到的绝大部分环境。这个就是微软Hololens和Magic Leap比最早google glass的高明之处。

STEP2:
基于第一步之后的近眼现实叠加，那么就有两个点，AR设备不可能像VR设备一样不再介意个头大小。那么就带来一系列的问题，在最短的距离里实现虚拟画面。

光学反射，早期的Google glass就是基于光学反射，有点混合了投影、反射式望远镜的原理，基本能实现3米外40寸左右的画面，但也只能在这个大小和距离，那就无法真正把信息叠加到对的位置。这是目前唯一有量产的技术，这个也是O.S.G 开源智能眼镜的光学显示起点。

光栅衍射，这个是Lumus的技术，通过分割画面后多次反射，实现更薄更小的显示。但制造精度要求高。至今也没有量产。

光场技术，光场技术简单通俗的来说。就是通过运算出不同景深的图像。通过对人眼焦距的分析，通过投射的方式让用户看到的虚拟画面跟真实画面在视觉上看起来是一致的。简单的来说，就是类似昆虫复眼的成像方式。目前只有nvidia的研究项目pinlights display有演示过。

还有一些其他的技术，就不细谈了

热心的小回应 · 2021-1-3 20:17:13

从不装逼的角度解释一下：
VR是虚拟的世界，漫画书、游戏、小说都传统意义的VRAR是人感知的真实世界的增强，打火机、手电筒、望远镜都是传统意义的AR
VR的世界一直存在，但是局限于视觉、听觉两层感受。（人的五感中的2/5）——从计算机出现之后，游戏作为一个强劲的虚拟世界出现了，比电影还要有参与感(因为能参与其中玩出不同的结局，也能很多人一起创造不可预测的结果）。这算是一个很大的技术变化；——最近热潮发展出的新技术内核是“不头晕模拟真实的显示屏”，以及能够支撑其运转的家用计算能力，配合了动作的捕捉设备。在体感关联真实视觉上达到了新高度，从框内视觉模拟了开放视觉，所以让虚拟世界更加让人身临其境。
AR的的技术一直存在，也一直将人作为核心进行改进和服务（各种人使用的工具）——从计算机出现之后，工具不局限于可见可触摸的菜刀了（让人的柔软的手增强锋属性利切割物品），计算力通过各种形式在人类的现实世界中进行增强；比如让我的现实世界的脸增强美丽属性（美颜相机）,虚拟世界的内容被设备叠加到了现实世界，包括谷歌地图也是一种AR。——最近热潮发展出的新技术并没有特别吊炸天的，但是手持移动设备硬件的进步，会让现实世界叠加信息更丰富（因为现实世界变为了可移动，这样虚拟和现实的叠加组合场景基数就变大了），信息类AR目前的应用主要变化是基于俩技术的改变：1.电子地图的完整和定位精度 2.手机计算能力运行更富媒体的信息实时接入（以前是平面的文字、图片，结合在链接和按钮上，现在是视频、动画结合在动态的现实世界）。也有比手持设备（手机）更高级的头戴设备开始出现，比如微软的hololens，这些硬件设备的进步也是一种突破。
VR和AR以后发展如何，属于我们这代年轻的互联网狂热分子。

热心的小回应 · 2021-1-3 20:17:14

2016年，又一个“虚拟现实元年”，自从2014年3月 Facebook宣布以20亿美元收购Oculus之后，每一年都成了“虚拟现实元年”。

同样，自2013年12月14新三板扩容至全国后，便出现了井喷式的发展，2014年由此也被称为“新三板元年”，自此之后的每一年也都被称之为“新三板元年”。

互联网元年、大数据元年、云计算元年… 科技圈好像特别偏爱“元年”这个词。至少有两个原因：1. 第一总是好的，凡事都要抢第一，这是我们的传统。人生的第一桶金，过年的头一炷香，连宴席上第一个动筷子的人都是身份地位的象征。2. 革命思想作祟，我们内心深处都是希望革命的，都希望做每个时代的革命者，能当上君王最好，说不定我运气好了，赶上这拨儿了呢！VR界的BAT，听着就那么振奋人心鼓舞士气。当然，这都是我意淫的，在当下浩浩荡荡的造词营（hu）销（you）运动面前，不是心理学就能简单解释的清楚的，而且我也没学过心理学…
在科学技术领域不能简单粗暴的以革命的办法来定义某一年是“元年”。1801年，被誉为“无机化学之父”的英国人汉弗里·戴维Humphry Davy就将铂丝通电发光，7年后他又用2000节电池和两根炭棒，制成世界上第一盏弧光灯。汉弗里·戴维死后的第25年，生于德国人亨利·戈培尔Heinrich Gbel用一根炭化的竹丝，放在真空的玻璃瓶下通电发光，发明了第一个白炽灯，并且可以维持400小时。又过了25年英国人约瑟夫·威尔森·斯旺JosephWilson Swan以真空下用碳丝通电的灯泡在英国申请并获得了专利，并与1875年把专利卖给了美国人托马斯·爱迪生Thomas Edison。1880年爱迪生造出的炭化竹丝灯泡曾成功在实验室维持1200小时。请问，哪一年是电灯泡的元年？

以上参考资料来自维基百科，好了我装完X了，我们来聊聊虚拟现实吧。
几年前提到虚拟现实，大部分人第一反应还都会想到好莱坞的科幻电影，而现在大家都知道了Oculus头盔，虚拟现实似乎和头戴式显示器HMD划上了等号。当然，这对于一个行业的发展是好事，将虚拟现实符号化更加有利于传播。
对于虚拟现实的通俗解释是：利用计算机技术从空间和位置上来模拟人类视觉、听觉、触觉甚至是嗅觉的感受，从而达到身临其境的效果。现在被广泛用来推广和宣传的虚拟现实头盔就是视觉上的模拟，当然视觉上的模拟还有很多种形式，一会我们展开来聊。

配合光学捕捉系统和数据手套使用的头戴式显示器
听觉上的模拟早在上个世纪就已经出现了。1957年美国Audio Fidelity Records公司就第一次将立体声引入商业唱片领域，1957年可视为唱片录音史上Mono与Stereo的重要分水岭，许多在1957年前便过世的音乐家，都因而很遗憾未能留下Stereo的录音资料。此后在1960年代，大多数唱片公司都陆续放弃单声道，全面性地转向双声道立体声录音。到了1985年，日本电子机械工业会(EIAJ)也对环绕立体声制定了技术标准(STC-020)。

早些年的立体声收录机
触觉上为了得到真实的触觉反馈，就要提到利用高精度机械马达的反作用力和各种传感器配合完成的力反馈ForceFeedback技术；利用红外光学实时反射或陀螺仪传感器或超声波传感器对人体动作的捕捉完成的动作捕捉Motioncapture技术（好莱坞电影中已有广泛应用，请自行Google詹姆斯卡梅隆的阿凡达拍摄技术）；还有数据手套Data Glove；甚至是眼动追踪Eye Tracking技术，Google就曾经用眼动追踪技术来测试网页的可用性，而苹果公司更是在2010年战略投资了瑞典眼动追踪技术公司Tobii。这个领域的技术其实也发展的如火如荼，而且很多都是真正的狂拽酷炫的黑科技，如果大家感兴趣，回头单独写一篇跟大家讨论。

桌面型力反馈设备

电影阿凡达Avatar中的光学动作捕捉设备

电影猩球崛起Rise of the Planet of theApes中的光学面部动作捕捉设备

嗅觉技术上我没研究过，但是以我国人民对各种化学用品以及食品添加剂广泛应用，这项技术的突破指日可待。

近些年来我国在嗅觉和味觉模拟领域有着突破性的进展
我们回过头来聊聊最近这些年火热的视觉模拟技术。大约在公元前400年左右，希腊的数学家欧几里德Euclid发现了人类之所以能洞察立体空间，主要是因左右眼所看到的景物不同而产生，这种现象被叫做双眼视差Binocular Parallax。再后来1838年的查尔斯·惠斯通Charles Wheatstone和1849 年的大卫·布儒斯特David Brewster也是利用双眼视差Binocular Parallax原理发明出了的各种可以看出立体画面的设备。

1838年查尔斯·惠斯通Charles Wheatstone发明的立体镜Stereoscope

1849年大卫·布儒斯特David Brewster以凸透镜取代立体镜中的镜子发明了改良型的立体镜

1901年出版的用双眼视差设备观看的立体图画
时至今日，我们时下最流行的3D立体视觉模拟技术也是基于双眼视差Binocular Parallax原理，无论是各大影院的3D电影，还是自己家中的3D电视，以及引领虚拟现实元年的虚拟现实头盔或者VR眼镜，都是通过计算机技术和显示成像技术对左右眼分别提供一组视角不同的画面，提供一个双眼视差的环境，从而让人感觉到立体画面。所以我经常跟朋友们开玩笑说，如果电影加勒比海盗中的Ragetti去看3D电影，他是感觉不到立体的。因为他一只眼睛带着眼罩，只能看到一组画面，无法感知双眼视差，所以他会要求退票的！

麦肯锡·克鲁克Mackenzie Crook在电影加勒比海盗中饰演的Ragetti
在全世界范围内应用的较为广泛的3D立体显示技术主要依靠投影技术和显示器技术来实现的，而投影系统和显示器又分为了主动立体和被动立体两种立体模式。如何理解主动立体和被动立体，主要看显示设备是主动分成两组画面还是被动分成两组画面。

主动立体显示系统的投影机或者显示器可以主动显示两组画面，一般都具有较高的刷新频率，至少要达到120Hz，这样当平均分成两组画面进行交替的时候，才能让每只眼镜看到的画面不低于60Hz的刷新率，保证画面的流畅度。主动立体显示系统还必须要有刷新频率信号发射设备和可接收信号的液晶快门眼镜。当显示设备开启主动立体模式，会经过信号发生器发射同步刷新信号，液晶快门眼镜在接收到信号后会根据显示系统的刷新频率同步交替开启左右眼镜片，这样就能保证两只眼睛可以分别看到两组不同的画面。

主动立体通过显示系统和液晶快门眼镜配合刷新显示两组不同画面
主动立体的优势在于立体显示效果明显，沉浸感强，观者的头部移动不受限制，而且主动立体投影系统不受场地荧幕的限制。缺点就是成本较高，而且由于立体显示效果依靠显示设备和眼镜的刷新频率，所以会有眩晕的感觉不适合长时间佩戴。

NVIDIA公司出品的3D VISION2液晶快门眼镜及发射器套装
被动立体显示系统的显示设备本身并不能主动显示两组画面，是通过后期处理成两组画面。常见被动立体显示器就是在显示设备上叠加偏振光片将显示画面进行拆分，同时在偏振光片眼镜的配合下从而达到立体显示效果，一般被动立体显示器所用的是圆偏振光片。如何区分自己家里买的3D电视是主动立体还是被动立体，最直接的办法就是看随机配送的眼镜，如果是需要安装电池的，就是主动立体，如果仅仅是一个塑料材质的眼镜无需安装电池，就是被动立体。

被动立体显示器的工作原理示意图
而被动立体投影系统一般则是需要两台投影机上下叠加，并且在每台投影机前防止一个偏振光片，通常是将两个线偏振光片以90°的角度差分别放置在两台投影机前，同时，将3D眼镜也以两个线偏振光片以90°的角度差分别安装，这样就能保证两只眼睛可以分别看到两组不同的画面。而且如果是被动立体投影系统还需要配备一个高增益的金属投影幕，因为普通物体反射的光是偏振光，也就是只能反射一个方向的偏振光，这样就不能把两个画面都反射回来。而金属可以将两个画面的光线全部反射回来，这样才能保证看到两组画面。

被动立体的优势在于显示设备价格亲民，而且不会产生佩戴眩晕感，所以大部门电影院的3D电影用的都是被动立体投影系统。缺点在于对场地荧幕有特殊要求，而且如果是线偏振片的眼镜，还需要保证观者头部不能向左或向右垂直偏转，有较高的限制性。

被动立体投影系统常见配置
当然，随着科技的发展，这些对于概念、定义上的局限也都会逐渐被模糊。早在2006年瑞士的Barco公司在北京展出的Galaxy+ 系列投影机就做到了一台投影机既能做到不需要金属荧幕的被动立体投影也能变成一台主动立体投影机。其运用的Infitec+ 技术使用高品质颜色过滤技术，将传统的主动立体信号转换成同样刷新率的、感觉更舒适的光谱立体图像输出，相继为左眼和右眼生成图像。该技术克服了传统主动立体和被动立体技术的缺点，在实用性和显示效果方面表现更出色，其主要特点为对屏幕没有偏振特性的要求，提供与主动立体一样的系统图像拼接质量。而其光谱分离技术的立体眼镜不需要配备电源和复杂的电路，因此舒适感和沉浸感更好、眼镜轻便、由于不需信号同步发射器所以头部可随意移动，可以满足有大量观众场合的应用。同时Galaxy＋也可以输出主动立体或普通的非立体图像。

Dolby光谱分离立体(INFITEC)眼镜

Barco公司采用Infitec技术的Galaxy NW-12 EX型号投影机
概念和定义是帮助人们对某项事物进行认知和学习的，对于发展和创新则不能拘泥于此。当下如火如荼叱咤风云的虚拟现实头盔或者VR眼镜就不能简单地给划分成主动立体还是被动立体。其实对于这一类设备有一个较为专业的统称：头戴式显示器Head MountedDisplay，这种设备在上个世纪中期也已经有了雏形。

全世界公认的图形图像学之父——伊凡·爱德华·苏泽兰Ivan EdwardSutherland在1968年设计了一个在现在看来非常笨重的头戴式显示器。这套设备不仅配有显示器，而且还配备了视角定位设备，当用户改变他们的头部的位置时，吊臂关节的移动就传输到计算机中，计算机则相应地更新屏幕显示。但是由于其显示设备以及用于反馈用户视角的传感器设备的重量大大超出了正常人的承受能力，所以不得不将整个设备悬挂吊装在天花板上。而这第一台头戴式显示器因此也赢得了一个绰号“达摩克利斯之剑”！

1968年Ivan Sutherland 设计的头戴式显示器
从上个世纪六十年代开始战斗机飞行员的战斗机操作技术复杂性日益增加，各种在那时人民看来的黑科技也相继出现。托马斯·弗内斯Thomas A.Furness III一个不是创造虚拟现实概念却被称为“虚拟现实之父”的人，从1966年开始为设在美国俄亥俄州的Wright-Patterson空军基地的飞行员们开发了一系列用于战斗机驾驶模拟的设备，直到1986年的The SuperCockpit达到了一个不小的技术巅峰。其配备的6自由度传感器不但能够让飞行员们完全沉浸在虚拟世界中，以及在那个时代绝对的黑科技：3D地图，红外和雷达图像，头部位置跟踪，手势控制和语音控制，甚至是眼动追踪技术。

托马斯·弗内斯为美国空军设计的头戴式显示器

托马斯·弗内斯为美国空军设计的头戴式显示器The Super Cockpit
而世界上第一个商用的头戴式显示器出现在1995年，由美国Forte Technologies Incorporated.发布的Forte VFX-1 ，售价$ 599美元。而日本Sony公司在1997年也在美国市场上发布了一款名为Glasstron的头戴式显示器，距今已有近20年。不知道Sony公司前不久将Project Morpheus正式命名为PlayStation VR的头戴式显示器效果有大的飞跃？

世界上第一台商用头戴式显示器Forte VFX-1

Forte VFX-1配备的手持控制器

1997年Sony公司发布的Glasstron

2014年Sony公司发布的Project Morpheus
最近这两年各种VR眼镜、虚拟现实头盔如智能手机一般不断地推陈出新，如Google推出的 Cardboard，更是将VR眼镜的体验门槛拉倒了贫困线以下！估计国内的硬纸板的造纸市场也跟着迎来了一批投资热吧？

Google公司推出用纸板做的Cardboard VR眼镜
其实我们从Sony公司这近20年间隔的两代产品可以看出来，头戴式显示器的发展除了名字变成了“VR眼镜”和“虚拟现实头盔”之外，在交互方式上并没有重大突破，无非也就是显示器的分辨率更高一些，传感器精度更高一些。那么究竟是什么又开启了“VR元年”呢？是用户需求已经到了呼唤下一代交互方式了吗？还是当下资本市场的滚滚热钱在寻觅下一个互联网、B2B、SNS、O2O？

资本市场的介入其实对于一个行业都是一支强心剂，甚至说是兴奋剂，能加速行业发展的同时，也能加速淘汰行业中的“差品”和“伪需求”。成功的案例比比皆是，失败的案例更是哀鸿遍野。
那么虚拟现实行业的“真需求”是什么？在什么样的情况下人类会需要去虚拟一个现实的世界？我个人总结应该有以下这几类的世界：要么暂时无法达到，要么太过危险，要么付出成本太高。
暂时无法达到的世界，比如游戏中的世界、科幻电影中的世界；还有只是空间上我们暂时无法到达的世界，比如探索一下太空，或者在中国观看一场美国正在进行的NBA比赛（当然NBA比赛从1994年在中国就开始直播了）。当然还有推动互联网向前发展的色情行业，不过不知道是不是也应该把这个也列入危险或者高成本一类呢？

NextVR 在2015年开始用双摄像头VR技术开始转播体育赛事和演唱会等娱乐活动

通过双摄像头拍摄和传输，佩戴VR眼镜可以得到身临其境的立体观赛效果
去年Apple Music与VR工作室VRSE联合为U2乐队打造了一款360度虚拟现实音乐视频《Song for Someone》。用户通过佩戴VR头盔可以体验U2乐队的现场表演，同时，佩戴立体声耳机甚至可以体验不同位置视角的声音效果变化。

VRSE支持谷歌Cardboard VR眼镜体验360°全景现场

U2乐队在VRSE中为观众呈现一场真实的现场表演
太过于危险的世界，比如煤矿、油田、天然气、电力和化工等领域；这一类行业的工作环境和工作设备一般都具有较高的危险性，一旦有任何的操作失误或疏忽都容易引发重大事故。所以利用虚拟现实技术帮助这一类行业用户进行新工人的技术培训、模拟设备操作维修、编制模拟应急预案等工作，能让工人在几近真实的环境下熟练操作，将会大大降低实际工作中的危险系数。

比如还有士兵的战争训练，如果跳伞，作战模拟等这些在真实战场具有很大危险性，如果借助虚拟现实技术，既可以沉浸式的体验真实战场环境，又能保证士兵的人身安全。

士兵佩戴VR眼镜在鼠笼式装置中进行作战训练

士兵佩戴VR眼镜进行伞降作战训练
需要付出成本过高成本的世界，制造业中生产一个物理模型的成本高昂的行业，如航空、航天、军工、汽车等大型制造业；这些企业的共同特点就是生产物理样机和生产时间都非常的宝贵，航空飞行器、飞机、轮船或汽车在量产前，都要进行各种可靠性验证，可是如果真的制造一台真实的物理样机的经济成本和时间成本都是非常巨大的。这个时候引入虚拟现实技术来帮助进行一些科学化的验证工作，既可以大大减少这一类物理样机制作，又能在生产之前对产品进行全方位验证和评估，从而降低成本，缩短产品的研发周期。

利用虚拟现实技术进行人机工程学验证
实际上，早在上个世纪波音777飞机的设计研发过程中就引入了全程无纸化设计的理念，所有的飞机设计内容都采用3D立体绘图，也就是我们所说的CAD，只不过他用的是法国达索集团的工业设计软件CATIA。所以说，波音 777 飞机的设计过程就是 VR 技术的应用典型实例。波音 777 飞机由 300 万个零件组成，所有的设计在一个由数百台工作站组成的虚拟环境中进行，设计师戴上VR头盔后，可以在虚拟的“飞机”中进行漫游体验，审视“飞机”的各项设计指标。

波音777飞机的3D模型
再后来随着计算机技术的发展，CAD计算机辅助设计、CAE计算机辅助分析、CAM计算机辅助制造，早已在这些行业有着深入的应用。汽车制造业也是同样的道理，有很多汽车设计，都是借助虚拟现实技术来进行前期样机的设计评测的。这些技术也和虚拟现实技术有着千丝万缕的联系。

法国PSA Peugeot Citroen公司利用虚拟现实技术验证汽车设计
在看过这么多行业的应用之后，我们不难发现，其实虚拟现实硬件技术早在很多年前就已经较为成熟，只是没有在民用市场被大规模的应用罢了，所以早些年提到虚拟现实、VR技术，往往都被打上“黑科技”（那个时候还没“黑科技”这个词吧？）的标签。那黑科技什么时候才能走进寻常百姓家呢，关键要看内容！3D电视发展了这么久，也走进寻常百姓家了，请问在家经常使用3D电视功能，带3D眼镜看电视的同学请举手，看没人举手吧！没有内容，看什么？

之前还看到社区上有人说：“内容倒是不急，因为现在硬件平台和内容分发渠道都还没有建立起来，你内容太早做出来也没用。”关于这个说法，我是持相反意见的，虽然不能说这个观点本末倒置，但是你看电影行业发展这么多年，从业者们在最开始是等着电影院线和荧幕数量发展起来才开始拍电影的吗？有了内容自然就会去找更适合内容体验的硬件设备。
如果说早些年跟虚拟现实沾边儿的技术如野草般肆意疯长，那么经过这些年的技术发展和经验的积淀，如今跟虚拟现实沾边儿的词儿都如同用飞机撒了化肥的野草，请自行脑补吧！其实无论我们谈什么行业的发展都绕不开技术导向还是需求导向的问题，一项技术的发展在其初期，一定是技术导向的，因为技术成熟了，很多天马行空的想法可以落地了，站在风口浪尖的技术弄潮儿们百家争鸣献计献策。但是，想要让一项技术落地，生根发芽，必须就要回到需求导向。你的技术再牛，我没需求，他没需求，你给谁用？
所以说在科技圈生辰八字也很重要，生早了技术不成熟，资源匮乏，或者赶上个瘟疫霍乱大饥荒，要么直接饿死病死，要么苟延残喘几年后夭折。早些年出生的PDA就是这样的命运。而“虚拟现实”是一个早产儿，出生了这么多年一直在数九隆冬腊月天中营养不良的活着，最近这些年春天来了，开始过上好日子了，吃得饱穿得暖了，我们擦亮眼等着看吧！

热心的小回应 · 2021-1-3 20:17:15

我个人因为只会一些皮毛，所以只能大致的说说。

建模是需要的，各种优化措施和贴图材质都是很关键的。
但是模型及美术不是关键，关键的是输出这些画面的硬件和其内部的各类检测算法。
目前看来Magic Leap的硬件设备是一个移动主机加眼镜，移动主机的出现使得眼镜的设计更为轻松，不像Hololens那样高科技的设计。

VR和AR背后的核心都是计算机图形学，您说的建模也是属于这其中的。

热心的小回应 · 2021-1-3 20:17:16

VR
硬件硬件硬件
AR
算法算法算法

热心的小回应 · 2021-1-3 20:17:17

对了，magic leap 公司是一家电影特效公司。

热心的小回应 · 2021-1-3 20:17:18

增强现实AR主要可以分为两种实现方式

基于位置：主要根据AR设备的地理位置，辅助自身传感器陀螺仪，计算出目标点与自身的方位角，从而在AR屏幕上显示。可以参考的例子是apple的pARk。
基于图像：通过计算机视觉算法，定位实时图像中的目标，从而对屏幕中图片进一步渲染。常用的库像是高通的Vuforia。

实际项目中，可以可以将两者相互结合，从而提供完整的AR体验。

虚拟现实VR的话，则是在上述内容基础上，将真实环境替换为了虚拟环境。

热心的小回应 · 2021-1-3 20:17:19

基本原理是光学成像原理，很简单，可以认为是核心，但已经解决，所以不算核心原理。

现阶段：

vr的核心技术：是输入设备及其应用；对商家来说，核心是内容。

ar的核心技术除了输入处理，还得包含输出处理，因为它要叠加内容到现实世界！vr不存在这个问题（不需要，vr的输出问题已经被解决）。

有识之士都知道,"鼠标的发明改变了电脑，触摸屏改变了智能手机，VR 也需要一个这样的东西。没有好的交互，虚拟现实就无法被大众接受。没人知道那是什么，直到有人发明出来。"

虚拟现实（VR）和增强现实（AR）背后的核心技术是什么？

10 个回复