Rokid高鹏：人工智能技术没你想得那么乐观-爱分析

2016年临近尾声，人工智能走过了有史以来最热的一个年度，伴随着“三高”——创业公司估值高、技术人才价格高、社会普遍关注度高，这一新兴技术领域也引发了不少质疑，高估值背后是否存在泡沫？无论2B还是2C，技术是否成熟到临近广泛应用和普及的爆发点？接下来，整个市场会持续升温还是趋于冷静？

对于这些问题，创业者、投资人，以及学界、业界的研究者和观察者们众口不一。创业者奋战在一线，对行业发展普遍乐观，投资人争相押注、布局赛道，看好前景的同时，也保持态度谨慎。那么，对于从学界跨入业界，做了十多年前沿技术研究的AI创业者来说，对当前的人工智能又作何理解呢？

近日，爱分析对Rokid北京A-Lab实验室负责人高鹏进行了访谈，讨论了当前以语音技术为代表的AI底层技术研发进展、存在问题，对通用智能、机器学习等技术的理解，以及2B、2C两条线的商业化路径及趋势。爱分析节选其中精彩内容，与各位分享。

高鹏2008年毕业于中科院自动化所模式识别与智能系统专业，获博士学位，主要研究人机语音交互技术。毕业后，他继续留在中科院，从事语音应用技术研发。2015年初，高鹏加入Rokid，组建A-Lab，并担任负责人，至今已有16年语音技术积累。

Rokid高鹏：人工智能技术没你想得那么乐观

语音识别问题多，结合语义才能实现完美效果

爱分析：语音识别技术发展至今，你认为还存在哪些问题？

高鹏：语音识别的问题很多。

首先是远场识别。

现在家庭环境的远场识别，基本上最远都是3-5米，Echo也差不多是这个距离。远场识别是家庭环境里面语音交互的一个必备工作，它需要一些特殊的算法去做语音增强，然后削弱一些环境噪音，才能达到比较好的效果。

而且它本身存在物理极限，最远也就是10米，再远的话就得靠喊了。因为声音信号和距离是以平方关系衰减。这是一个物理限制，加上家居环境中往往有噪音，而且会隔着门、隔着墙，声音很难传播。

所以只能采用别的方式去拾音，比如采用分体式设计，每个房间都装一些麦克风用来拾音，AI就以一个虚拟的形式存在，这样每个房间都可以实现自由的语音交互了。当然，这可能还比较远。

其次是声纹识别。

声纹识别就是识别出是某一个人的声音，而不是其他人。现在声纹识别只能做到近讲，比如电话、手机这种。远讲的话，至少在家居环境里，目前还没有看到一个很成功的应用。因为远场识别的所有问题也都是远场声纹识别的问题，加上距离不同，声音变化很大，所以要识别出是某个人的声音非常困难。

然后是声源定位。

机器需要判断，是这个方向上有人跟我讲话，而不是旁边一个方向，这是一个信号处理问题，在家居环境中非常典型。

比如，家里放着电视，有人聊天，比较吵。你在某个地方叫一声“若琪”，它得能在同时很吵的方向里找到有人叫它“若琪”。这需要机器做很多声源分离和定位，来找到真正跟它交互的声音。当然要做到准确分离，需要交互声音和背景噪音存在一定的角度差，否则其实也很难分开。

最后是识别效果。

现在有些公司号称机器的语音识别超过人类听觉，那都是在比较理想的情况下，其实在真实的使用场景中，还是没有办法达到非常理想的效果。

因为语音识别是比较隔离的，相当于要把语音变成文字。对于机器来说，它并不理解这些字是什么意思，它做的只是一个比较复杂的持续性信号分类工作。

加上在实际使用中，会存在很多干扰，比如方言、噪音、断句、重复、语气词等各种情况，对于机器来说，要处理这些问题是很难的。当然方言这块，讯飞经过多年的数据积累，已经能够实现很好的效果，支持很多种方言。但是要处理其他一些情况，目前的效果还不是很理想。

要想达到非常理想的识别，还是需要全流程结合，结合语义来纠正它识别过程中的错误。就像我们人跟人交互的时候，很多时候周围环境很吵，你也能听懂什么意思，是因为你是带着常识和知识背景在听，而电脑缺乏一个足够的知识背景，它只能根据一些统计模型来调整识别。

所以，语音识别最终还是要跟后端语义理解相结合，才能实现比较理想的效果。现在是前半段的问题已经解决得不错了，可以用了，但是离完美还很远。

Rokid高鹏：人工智能技术没你想得那么乐观

爱分析：语音识别技术的门槛有多高？

高鹏：语音识别技术非常复杂，涉及到语音信号处理、发音、语言学等很多东西，还有模式识别、语言模型、搜索等等，本身技术链条很长、技术门槛很高，所以人才稀缺。

国内主要就是四个地方在做，中科院自动化所和声学所、中科大（以讯飞为代表）以及清华（以捷通华声为代表）。这四个地方是国内培养语音技术人才的摇篮，现在一些有自主语音技术的创业公司，基本也都是这四个地方培养出来的人才。而其他一些创业公司可能就是直接使用讯飞、云知声、思必驰等公司的技术，因为对于没有技术积累的创业公司来说，要自己做还是很难的。

服务型对话和自由聊天不是一回事

爱分析：服务型对话和自由式对话在技术实现方式上有什么不同？

高鹏：技术上是完全不一样的。

服务型对话有非常明确的目的，它能够理解的范围也是有限的。做得好的服务型对话，不会对用户的说法有太多限制，用户只要表达出意思，机器就能够理解。但是这一点现在其实还很难做到。

很多人认为它其实就是关键词自动回复，当然关键词是最基础的方法，但是因为用户的语言变化非常大，包括语序、断句、重复、语气词等等，这时候关键词就很难起效，需要配合很多种方法来做。但是至少服务型对话目的很明确，就是要理解用户意思，比如你要听某个人某种类型的一首歌，目的很明确，只是表达方式不一样。

而自由聊天刚好相反，它没有明确目的，对于计算机来说就是没有明确界限。人在对话过程中，是会基于一定的背景和知识储备，但对于计算机来说，如果超出了限定范围之外，它就不知道如何回复了。

事实上，聊天机器人做的是另外一件事情，它并不理解我们说什么，但是它能保证每一句话都会回答。之所以能做到这一点，是因为它上网学习了成千上万、规模从几亿到几十亿的对话，它会去找你问的话，有可能用什么来回复，以及依据是什么。

这个过程其实就是机器学习，但还只是浅层学习，因为它没办法真正理解你的意思，它只不过是找到了一个类似的、相关的内容，来进行一个模拟对话。所以聊天机器人更像是一个高级搜索，输入一个问题，它给你一个它认为的回答。

爱分析：从技术上讲，哪个更难一些？

高鹏：这种难度很难比较，因为它的方向不一样。

固定语义理解的难点在于，用户表达同一个语义的方式非常不一样，你要能够把它对应到你要的那种语义，而且要判断它是不是这个语义；聊天机器人的问题是，你要有足够大的语料，然后去设计一个搜索路径或者过滤方法，然后才能够得到一个比较好的相关结果。

总之，服务型对话需要更精确地理解你的话，但是范围很小；而聊天机器人不需要精准理解你的话，但是范围很大。

Rokid高鹏：人工智能技术没你想得那么乐观

我们离通用智能还很远

爱分析：如何看待通用智能？

高鹏：通用智能是一个学术界最前沿的研究问题。比如Deepmind就花费大量精力在做这件事情。他们要设计一套算法或者一个模型，让它能够具有一些通用的推理能力或者交互能力。通用智能可以说是人工智能的终极目标，如果真能做到的话，不考虑工程性问题，我们在电影里看到的虚拟AI就能够实现了。

但是，要实现通用智能，需要克服很多难点。

首先就是知识的表示。

知识表示是非常困难的，因为人的大脑本身是一个黑盒子，它是经过很长的成长过程才能获取到一些常识性东西。这个东西怎么用计算机来表示呢？或者说怎么让计算机学到这些知识？这点很困难。

然后是推理和决策。

比如AlphaGo下棋很厉害，谁都下不过它。如果我们人类决定把19线改成21线，我们还可以照样玩这个游戏，但是电脑就不行了，因为它没有学过。就算它从头开始学习，它也没有那么多的数据，因为我们人类刚开始玩21线，之前没有相关的数据积累。

机器只有等到我们把数据积累到一定程度，它才能够去学习。也就是说，人类可以依靠知识背景和推理去学习全新的东西，但是机器还只能依靠历史数据去学习。

所以现在最基本的问题都还没有解决。我们现在所谓的AI都是非常浅层的，或者说都是很实用的、用来解决具体问题的AI，离通用智能还非常非常远。

数据成本下降要靠技术进步

爱分析：创业公司如何解决数据缺乏问题？

高鹏：对于2B的创业公司，客户会给他们提供数据，2C的公司就要自己去积累数据，或者前期需要直接去买一些现成的数据。当然，买数据的成本也非常高。

爱分析：数据成本什么时候或者具备什么条件会降下来？

高鹏：成本的下降更多的还是要依赖技术发展。之前我们用的是监督式学习，相当于每条数据都得告诉机器这个数据是什么。慢慢的随着算法演进，可能就不需要那么精确地告诉机器这个数据是什么，只要告诉它大概是什么，它会自己从里面挑一些好的数据去学习，这样就能减少对数据的依赖。

比如互联网上有很多数据可以免费抓取，只要不用于商业目的，只用于自己的分析建模，这些数据都可以用来做训练和学习。现在很多公司做自然语言理解，包括聊天机器人等，事实上门槛并没有那么高，先去网上免费抓取数据，然后写一些算法来分析这些数据，再从里面抽取一些对自己有用的，就可以直接拿来用了。

但是如果要对这些数据做一些更精细的标注，比如标出一句话的主语是什么、意图是什么，涉及的时间地点等都是什么，哪个地方停顿、哪个词语的词性等等，这个成本就非常高了。

假如标注一句话要1块钱，100万句就要100万。如果算法不要求这么精确的标注，比如粗筛选一下，数据就能达到建模要求了，可能只要花10万块钱，这样成本就降下来了。当然这就要求建模方法能够在对数据要求不那么高的情况下也能做得非常好。

Rokid高鹏：人工智能技术没你想得那么乐观

人工智能+最先爆发，2C还要等两年

爱分析：当前AI是否被炒得过热？

高鹏：确实有一些，虽然技术确实比前几年发展得好很多，但是还没有到真正开天辟地、一下子实现很大突破的时候。

爱分析：如何看待当前的人工智能大市场，包括2B和2C？

高鹏：其实我理解，我们要从两个角度看人工智能。

第一个角度，是人工智能+，它要解决的问题是直接提高生产力。比如用人工智能做医疗、大型节能控制、交通安防检查等，这个是非常有市场的，可以直接提高原有效率，这块会推翻现在很多行业的原有做法。

第二个角度，是人机交互，等于人和机器之间交互方式的改变，让机器更加智能来为我们每个人服务。

前者是2B市场，后者是2C市场。2B市场容忍度会比较高，比如原来效率60%，加入AI以后，能提升到65%，它可以让企业节省5%成本。但人机交互必须要达到95分甚至接近满分，才算是好的，哪怕你很努力做到90分，消费者都是不买账的，因为消费者的容忍度是非常低的。

现在是普通用户对AI期望值很高，虽然我们技术也在努力，但是现在技术确实做不到那么聪明、那么准确。但是对于行业来说，只要能够提高它的效率，就是一个好东西，他们都会用。

所以整体来看，B端市场的爆发一定先于C端市场。B端市场今年已经有了很明显的趋势，明年会继续普及。但是C端市场，我认为还需要等到两三年以后了。因为做产品不是一天两天的事情，特别是硬件产品，一个产品周期长达一年多，除了产品，还要考虑体验，还要打造品牌，还要考虑用户接受度等等。

爱分析：人工智能在医疗和节能控制领域有哪些典型应用？

高鹏：比如DeepMind就在做这两块。

医疗方面，有些疾病在症状显现出来是很难发现的，而如果能提早发现，可以大大提高治愈的概率。他们所做的事情就是让机器代替人看片子，或者检查数据，来判断一个人患某个疾病的概率。当然原理也是通过看大量的片子和数据学习出来的。

节能控制方面，一些大型企业需要庞大的服务器，这些服务器存在一个冷却问题，传统的冷却措施都是靠人根据一些监测数据和经验去调节管理，而DeepMind希望通过让机器学习历史数据，实现分析和预测，从而更高效地调节冷却系统，节省电力成本。在实际测试中，他们的技术可以节电40%，这是相当大的一部分成本。