摘要:机器如何感知三维环境和人体动作?体感技术除了游戏,还有哪些玩法?

撰写 | 京京

我们对这个世界的感知,很大程度上是通过眼睛,当我们四处走动时,视线范围内的场景信息通过眼睛传送到大脑,大脑对这些信息进行加工处理,我们才得以理解这个丰富多彩的世界。

让计算机拥有人眼一样的功能,是人工智能的重要目标之一。过去三十年,在计算机视觉领域,人们尝试通过颜色和深度摄像头以及相关算法,来模拟人类的三维感知能力。可以说,深度摄像头就是计算机的眼睛,而搭载算法的3D体感芯片就是处理三维图像信息的脑部神经。

在全球范围内,成立于2005年的以色列公司PrimeSense是3D传感技术的先驱,曾为众多企业提供技术解决方案。2009年,用于Xbox游戏机的微软第一代Kinect深度摄像头,搭载的就是PrimeSense的3D传感芯片。

然而四年后,PrimeSense被苹果收购,随之也停止向市场提供相关技术。无奈之下,微软开始研发自主体感芯片,并应用于Kinect二代。不过,微软拒绝向外界授权其核心技术。

而近几年成立的一些体感技术创业公司也相继被大公司收购,导致市场上一度出现了深度摄像头和3D传感技术的空缺。

值得庆幸的是,早在微软Kinect一代发布后不久,国内就有了致力于研发深度视觉和3D体感技术的团队——华捷艾米。

苹果微软垄断的骨骼追踪技术,竟然被这家公司打破了-爱分析

华捷艾米创立于6年前,2013年开始注册公司,团队成员多是来自清华、北理工、北邮、上海交大,以及英特尔、索尼、联想等公司拥有丰富经验的博士、硕士及海外留学专家。

在创始团队中,李骊毕业于清华大学,现任公司董事长;杨高峰担任CEO,主要负责投融资和财务工作,创业之前做了十年投资并购;赵子健是上海交大博士并在海外留学和工作,具有多年机器视觉研发经验;李朔毕业于北邮,担任技术总监,主攻硬件和芯片;王行来自百度深度学习研究院,是深度学习等核心算法的领头人。

经过多年研发,华捷艾米在3D体感交互领域积累了多项自主核心技术,已经申请了深度图像提取、人体骨架动作识别、三维测量芯片以及体感技术应用等十多项发明专利,其中1项背景建模及前景提取专利已经获得中美两国批准。

除了微软和苹果,华捷艾米是目前全球唯一一家拥有骨骼识别和追踪技术的公司,可以说打破了两家科技巨头的技术垄断。那么,华捷艾米的3D体感技术是如何实现的呢?我们先来了解一下技术原理。

3D体感技术如何实现?

事实上,3D体感技术的实现并不难理解。要让机器像人一样感知三维环境并识别人物动作,三步就可以实现:

第一步,测算深度信息;

第二步,进行前景分割和人物提取;

第三步,进行骨架重建和动作识别。

截止目前,深度信息的测算主要有三种方案:红外结构光、双目可见光、光飞行时间法(TOF)

双目方案需要在物体纹理信息清晰时才能使用,无光或微光情况下很难启动;而TOF成本太高,且不利于小型化和量产;结构光相对于TOF而言,算法简单,成本也更低,而且体积小,便于安装和维护,因此在实际三维轮廓测量中被广泛使用,也是华捷艾米所采用的方法。

结构光根据用处不同,可以分为不可见的红外光、黑白条纹可见光、单束线性激光等。华捷艾米摄像头所投射出来的光是红外光。把光投到不同的深度平面上,光的落点位置会发生变化,通过采集这些纹理变化,就可以计算不同的深度信息。

苹果微软垄断的骨骼追踪技术,竟然被这家公司打破了-爱分析

图:结构光技术图解

例如,我们拿一个手电照射墙壁,距离远近不同,墙上的光斑位置也会不同,从不同角度照射墙,光斑也会呈现不同的位移。根据位移大小就可以计算深度信息。

不过,如何实现红外光源从不同角度射出?华捷艾米采用了一个创新性的办法:在红外发射器前面加了一个特殊设计的光栅,这样红外光线就能从不同角度射出,另一个摄像头再去拍摄这些光斑并进行计算,从而得出每一个光斑所在的深度。

接着,使用前景分割算法,将人从空间里识别并提取出来,再利用骨骼识别算法实时计算人体20个关节点,就能实现人物肢体和行为动作的识别。

以微软的图像集进行测试,华捷艾米的人物动作识别准确率可以高达77%,与微软相比只差1%,可以说几乎达到了同等水平。

摄像头、芯片、SDK全方位体感解决方案

基于以上技术方案,华捷艾米共推出了三款产品:IMI-3D体感摄像头、IMI-3D体感芯片以及IMI-SDK。

苹果微软垄断的骨骼追踪技术,竟然被这家公司打破了-爱分析

图:华捷艾米3D体感摄像头

IMI-3D体感摄像头

IMI-3D体感摄像头内置3个镜头,中间为RGB彩色摄影头,用来收集彩色图像,左右两边分别为红外发射器和红外CMOS摄像头所构成的结构光深度感应器,用来收集深度数据。这款摄像头既可以作为独立摄像头与其他设备连接,也可以做成嵌入式方案,融合进其他软硬件产品中。

与微软Kinect相比,IMI-3D体感摄像头不仅在技术方案上采用了成本更低的结构光,其中所使用的芯片也是包含了骨骼跟踪技术及SLAM(即时定位与地图构建)算法的自主芯片。目前,IMI体感摄像头对深度感知的精度已经达到了毫米级别。

苹果微软垄断的骨骼追踪技术,竟然被这家公司打破了-爱分析

图:IMI-3D体感摄像头主要性能参数

IMI-3D体感芯片

IMI-3D体感芯片分为低配版IMI-1080和高配版IMI-1280,前者可以实时输出空间三维数据测量、深度图信息以及RGB图像,后者内置运算处理引擎,可以实现高分辨率深度图传输、高清彩色图像传输,以及应用于对解析度有更高要求的行业领域。

3D体感交互的关键技术是人体骨架提取及实时三维重建,这也是IMI-3D体感芯片最具优势的地方。

跟踪的前提是识别,骨架识别技术主要有数模逻辑推理和机器学习两种方案。前者,通过人体特征推理出每个关节点的位置来实现骨架识别。从原理上看很简单,但是由于人体大多时候处于随机动态变化中,逻辑推理方案并不能很好地把人体运动模拟出来,因此这种方案识别准确率不高,且不易商业化。

华捷艾米采用了第二种方案——机器学习。这种方法通过大集群计算机“学习”几千甚至万亿级人体行为样本,来得到基本人体行为模型。但是机器学习和神经网络是新兴技术,目前还不太成熟,学习方法和特征样本的选择需要不断试验,大集群计算机本身成本高昂,技术门槛相对较高。

华捷艾米通过使用上千万张手工标记的深度图来训练骨架识别模型,实现了在骨架识别和跟踪技术上的突破,形成了很高的技术壁垒。

苹果微软垄断的骨骼追踪技术,竟然被这家公司打破了-爱分析

图:华捷艾米骨架识别技术简介

IMI-SDK

IMI-SDK是体感应用的二次开发工具软件,包括体感设备驱动、APIs、开发文档以及Demo示例(C++、Java)等,支持Windows、Linux、Android等多系统平台。SDK算法库能够实现人物识别、20个骨架节点跟踪、动作识别、手势跟踪以及三维建模等。

落地家庭娱乐,拓展教育、培训、电商、医疗、安防领域

结合IMI-体感摄像头、体感芯片以及SDK算法库,华捷艾米的3D体感技术可以帮助用户开发出高性能的体感交互应用程序,用于游戏、教育、培训、电子商务、机器人、医疗康复以及安防等众多领域。

体感游戏

游戏是体感技术最早的应用领域,也是华捷艾米目前主要的商业化方向。通过和创维、海信、TCL、乐视TV、联想、小米、华为、中兴、海尔等电视及盒子厂商合作,将IMI-3D体感摄像头及传感芯片与体感游戏机、智能电视、机顶盒等智能设备连接,华捷艾米已经实现了3D体感技术在家庭娱乐场景的落地。

体感教育

同样的,体感交互也可以用于教育领域。通过3D体感操控技术,可以将学前教育和小学教育阶段无法直接体验、但又十分重要的知识和实践用接近真实的三维场景呈现出来,学生通过肢体动作就能轻松操控,在逼真的三维场景里学习天文、海洋、人体、品德、安全、动物等知识,实现情景式、沉浸式、交互式学习体验,提升学习效果,对成年人来说可以学习舞蹈、健身操、瑜伽、武术、体育运动等技能。

O2O电商

华捷艾米开发的3D体感试衣镜能够为消费者提供服饰搭配、互动分享、购买和支付于一体的便捷购物体验。服饰企业可以通过3D体感试衣镜创建小型O2O购物体验店,并设到生活社区、写字楼、机场、地铁、大学校园等场合,吸引消费者进行体验和消费。相比传统实体店铺,O2O购物体验店建设和运营成本更低,能够有效降低租金成本、人力成本和库存压力。

苹果微软垄断的骨骼追踪技术,竟然被这家公司打破了-爱分析

图:3D体感试衣镜

机器人

华捷艾米还可以为机器人提供视觉、听觉、智能互联等在内的一站式解决方案,实现颜色和深度信息传感、自主三维地图构建、三维场景分析、目标检测和定位、人体行为感知、远场人机对话、道路识别和壁障等功能,让机器人具备自我控制和环境感知能力。目前,华捷艾米已经和海尔克路德机器人合作,实现了扫地机器人的自主导航和避障功能。

康复医疗

与游戏和教育领域类似,体感技术也可以和VR结合,用于康复医疗。IMI互动式康复医疗解决方案包含生物反馈功能的情景互动系统,能够客观记录训练效果,并跟踪训练进展,通过校准系统对患者进行评估,根据评估值为患者制定个性化治疗方案。同时,基于游戏的训练还可以增强患者主动性,增强训练效果。

智能监控

华捷艾米通过三维视觉感知技术,可以实现对人物的精确检测和跟踪。在监控场景下,不再需要人工看守,摄像头和计算机系统可以直接对危险动作姿态(包括暴力、跌到等)和可疑人物运动轨迹(包括越界、逆行、徘徊等)进行检测和分析,并及时报警,提高监控可靠性和安全性。

此外,华捷艾米还和三大运营商合作,为其平台游戏提供体感技术支持。同时,阿里为了完善YunOS系统,也将华捷艾米的人体体感识别算法用于云端,实现了体感技术的从硬件向云端服务的转化。

大公司纷纷布局,体感技术何时爆发?

作为VR/AR以及AI的底层技术之一,体感技术的爆发很大程度上依赖整个市场及配套技术的成熟。近年来,大公司通过收购、专利保护、合作等形式,纷纷在体感技术上展开布局。

苹果在收购PrimeSense之后,又相继获得了一系列3D深度感知技术专利,未来有望将深度摄像头和感知技术用于下一代AppleTV、iTV和手机;微软除了Kinect,还将其用在极具未来感的Hololens,体感交互无疑会成为AR场景的主流交互方式。

相比创业公司,大公司依靠强大的资金实力和品牌知名度,更有可能通过C端产品带动整个市场的爆发。而对于创业公司而言,扎实做好技术积累,不断打磨和完善产品,一旦市场爆发,必将有机会趁势而起。

苹果微软垄断的骨骼追踪技术,竟然被这家公司打破了-爱分析

近期,爱分析对华捷艾米CEO杨高峰进行了调研访谈,现将部分内容摘录如下。

Q:团队规模及技术人员占比?

A:目前团队大概100人,分别在北京、南京、上海、深圳,北京主要是前沿算法和市场营销团队,南京是产品化和销售团队,上海是芯片团队,深圳是生产和销售团队。技术人员占比70%。

Q:人机交互目前有哪些痛点?

A:人机交互包括语音、手势、体感等交互方式。语音方面,主要受到对话距离、环境噪音以及发音标准程度的影响,另外在多轮对话方面,技术还不是很成熟。类似的问题也存在于手势和体感交互上,比如对人脸和环境的识别,也会受到光线、角度、距离等因素的影响。

Q:体感技术存在哪些难题?

A:摄像头视场范围还达不到人眼水平,人眼接近170度。不过我们的高配版摄像头已经将视场范围做到了100度。

Q:结构光会受周围光线影响吗?

A:双目方案受光线影响比较大,光线太暗就不行,结构光不会。但是如果发生遮挡的话,遮挡一部分可以通过深度学习算法补充完整,遮挡太多也不行。

Q:结构光是否支持户外环境?测量范围多少?

A:结构光可以通过调整光谱来适应户外环境,但测量精度并不如室内高。我们结合双目和结构光的优势,通过技术对接能在最大情况下减轻户外光照的影响,可以将室外测量范围扩展到10m。

Q:人物提取及动作识别的技术难点在哪?

A:对于人体动作来说,最主要的难题就是骨架重建的准确性和实时性。能够准确的进行骨骼跟踪是核心技术门槛;另外,人眼的反应时间一般小于120毫秒,也就是说,3D测量到骨架识别最大允许时间必须小于100毫秒,才能与应用对接,这就要求动作跟踪的计算量不能太大,要不然成本太高就不适合消费级产品使用。

Q:体感游戏的合作侧重智能电视还是机顶盒?

A:电视机和机顶盒都是非常大的市场。智能电视利润空间小,硬件升级周期比较长。机顶盒(含游戏机)内容丰富,容易进行硬件提升,而且更新换代比较快,市场更大。

Q:直接将芯片嵌入盒子还是外接?

A:目前还是通过USB连接,未来我们会把技术做到电视和盒子里。

Q:体感游戏包括VR游戏的发展目前存在哪些障碍?

A:体感游戏开发成本高,所以内容比较少,随着设备出货量的迅速增加,也会有更多游戏、教育、培训等对市场敏感的内容公司跟进。