影创科技的创始人兼CEO孙立：AI在增强现实中怎么用

影创科技孙立 AI 增强现实

孙立 | 2017-05-08 08:00

【数据猿导读】我们在光学上做了非常多的研究。首先是现在国内外量产能力非常不错的一个产品，是自由曲面，通过可量产的方案解决增强现实眼镜价值比较贵的问题。当然如果个人购买的话还不算是特别便宜

来源：数据猿作者：孙立

随着AR、VR和人工智能技术热度的上升，人工智能技术在VR和AR领域的应用也成为了热门话题。

4月27日下午，由数据猿、BitTiger、微软加速器·北京联合主办的硅谷之声论坛第二期在微软亚太研发总部召开。本次论坛的主题为AI in VR，AMD的图形事业部技术方案总监楚含进、冰立方创始人石瑞、影创科技创始人孙立、冰立方CTO谢国富在论坛上进行了分享。

以下是由数据猿精编整理发布的 影创科技的创始人兼CEO孙立 的精彩分享：

今天想跟大家分享AI在增强现实中的应用。

其实这是我正式做第二家公司，是我的第四个创业项目，我简单回顾一下我之前做创业项目的一些经历，和风口还是挺有关系的。

我在2005年大二的时候开始了第一个创业项目。当时我室友失恋了，他非常想做一个网站，做这个网站的目的很单纯，就是找对象。所以我就跟他做了一个非常像Facebook一样的网站，让单身男女把自己的照片传上去，像Facebook最早期的传照片，然后大家去评价。后来因为我这个室友找到女朋友了，所以这个项目就结束了。回过头看跟Facebook这个时间点是非常匹配的。

到了2007、2008年的时候，Facebook已经起来了，我看到基于社交网络的社交游戏非常火。最开始创业的过程就是追求风口的过程，开心农场是我做的第二个项目，并且上线盈利。当时我还是上海一家公司的实习生。

毕业之后，我很想做智能手机。大家选择创业项目的时候，一定要根据自己的实力，包括经济的实力和资源的实力量力而行。如果我当时做手机的互话，一定是做不成的，因为我几乎在手机硬件方面没有任何的资源，那个时候去拿风投创业环境也没有现在好。

所以在那个的情况下，我觉得自己不适合做硬件这件事情。最后我选择硬件是因为什么呢？因为我上一次创业延续了我之前做游戏的经验，后来我做了一家手游公司，那时候是2013、2014年的时候，那家手游公司一年净利润都到了一千万、两千万，我把它卖给上市公司以后，获得了自己的第一桶金，基于这个经历我才可以投入到后面的事业当中。

我之所以选择AR这个行业，是在2013到2014年之间，当时也是考察了很多创业项目，做手机肯定是不行，因为手机已经是红海市场了。我们就预测下一个成为新的平台的工具是什么？我们就认为肯定是增强现实，把公司卖掉以后，自己拿到的现金也就三千多万，这个钱做增强现实是远远不够的。包括做的过程中也是去融资，现在融了近亿，还是远远不够的。

2013年左右，这个项目开始正式招人。那个时候VRAR还没有像现在这么火，尤其AR才刚刚开始。如果现在再去追逐风口的话，我觉得未必就是一个很好的创业的项目。

我简单介绍一下公司，我们公司的核心优势是在于光学还有计算机视觉。我们希望成为世界上最好的增强现实公司，就像微软当时在操作系统的霸主，或者苹果在现在智能手机的霸主一样。

我们在光学上做了非常多的研究。首先是现在国内外量产能力非常不错的一个产品，是自由曲面，通过可量产的方案解决增强现实眼镜价值比较贵的问题。当然如果个人购买的话还不算是特别便宜。

第二个我们做一个半导体的芯片。它可以做到光场的显示，我们看到的图像聚焦是一样的，没有VR的图像就是手机摆在我们面前的一个焦距，可能是在两米左右的屏幕。但是我们人类真实接收光线信息的时候，不仅有颜色，更重要的还有一个深度，我们可以调节自己的眼球去对焦，看到不同远近的物体。我们看图像的时候，不光是一个平面的图，可以自动选择对焦自己想看清哪个图像。

把它逆转过来就是一个光场相机，直接可以捕捉到位置距离和光场信息，甚至不需要透镜。因为透镜有些问题，比如要看到一个很远的图像，就需要增加它的焦距。我们手机没办法做到相机一样的折射对焦。这个就是我们的核心技术。

影创科技_孙立_AI_增强现实-1

计算机视觉相关的东西和增强现实在增强现实里面是怎么应用的？我们最主要的一个目标就是通过图像信息对当前场景进行一个三维的重建。现在一些家具行业里面，他们在一个真实的空间里面把一些虚拟的椅子、家具布置到空间里面，但是他们没有办法把真实的家具去移动。我如果拿个摄像机对着我这个桌子，这个桌子本身是移动不了的。

这些东西其实可以通过人工智能去解决，它不仅可以对现实进行增强还能进行修改，这个就非常有意思了。我看到苹果的一些专利里面就讲到这个如何在虚拟的世界里面删除掉现实的物体。

其次，提供一些逼真的位置关系。现在已经可以通过一些照片来获取APP。对着某个东西拍个照片，它知道这个照片里面东西是什么？它会把这个物品的信息告诉你，但是如果我们未来用增强现实的方式实时的对动态进行一个增强现实。比如在移动的过程中，看到这个桌子它就告诉我这桌子是什么样的一个状态？这个过程就需要看似实时的一个位置，我们可以结合深度学习的办法去做。我在讲我们的做法之前，先讲一下这个3D重建的一些简单的方法。

我们在获取这个图像的时候，有这么几种方法可以直接获得有深度信息的图。

第一个结构光。虽然不是特别老的一个技术，但是目前来说结构光也有一些包括工号、计算上面的一些问题。

第二个，光的飞行时间。

第三个，单目的视差。

第四个，多目视差。

第二块完全不利用本身图片的深度信息，利用一些机器学习还有模型匹配，或者两者相结合的方式，直接建立一个。

我再讲一下深度获取的这样一系列的方法。

第一个就是结构光。它要通特定模式的光，可以是点状的，也可以线条或者网格，因为不同物体的形状对光的反馈是不一样的，最终会直接把这个物体的形状给反馈出来。然后拿到这个反馈的形状再去获得它的光的结果。其实它是需要大量计算的，这种方式性能并不是特别高。

现在比较流行的就是TOF，侧记光脉冲之间的传输延迟。它的一个好处就是说对于物体来说，可以没有任何视觉上的特征点，因为它都是外面的光打上去的。并且它直接计算，刚刚说的计算光脉冲之间的传输延迟就可以得到这个结果，根据这个时间就可以获得了深度学习，所以它不通过三角测量，通过简单数学的计算就可以得到。

还有通过单目的视差。最后就是多目视差，通过多个摄像头获得的一个图片，获得这些图片的特征以后，再通过三角测量获得深度的结果。这些东西都有好处，但是它最大的问题还是在于实时性和建模的精度。

这样的情况，导致了没有办法非常真实的体现这些物体的位置关系，在做增强现实的过程中可能出现一些穿帮的效果。

怎么办？通过机器学习，其实很好理解。比如对人脸进行专项学习以后，它就可以完全清楚，它的分类器可以把人脸进行光照的分类，然后进行一个肤色的分类，最后进行三维重建的时候它的准确度就会高很多。

比如说我们刚刚说的结构光，其实完全可以不通过结构光判断这个物体的形状，通过自然光也是一样的。但不同的纹理对自然光的反馈是不一样的，通过这些反馈我们可以得到一个比较好的结果。而且这个纹理还有另外一个作用，比如我们对桌子进行建模，常规的方法可能只能建视角看到的面。但是通过纹理可以推测其他面的纹理。

最后我们再通过一些物体识别的方法进行大数据的匹配。通过单帧的图片，把图片里面的物体抠出来，然后标识出来。先做一个分割，分割以后去匹配我们的库里已有的模型。这个模型可以是一个很通用的库，里面已经包含了很多种不同类型基础的模型。同时也可以只是一个形状的库，里面有一些圆柱形、方形等，把这些图形组合起来可以做一个建模。

它整个的流程是这样，第一，通过视觉定位，通过当前的未知。通过视觉，通过特征点的描述，其实还要加一个IMU的融合进去，这样比较稳定。获得了定位以后，我们把这个定位图片的两帧相差结构比较大的传输到云端。我们用云并不是做实时数据处理，而是用云已经处理好的东西去描述场景里的东西。描述出来以后，把三维模型表述出来。

影创科技_孙立_AI_增强现实-2