人工智能

竹间智能CTO翁嘉颀:多模态情感识别技术适宜落地HR、教育和新零售

2018年预计实现盈亏平衡

2018年11月16日
调研 | 刘馥亮 崔可家 撰写 | 刘馥亮
  • 人工智能
  • NLP

人工智能通常会分为视觉、语音和语义三个技术方向,在各个细分技术上,已经跑出一定体量的头部公司。

但同时做三个方向,将图像、语音和语义技术融合在一起的AI公司凤毛麟角,这其中,主打“多模态情感识别技术”的竹间智能是该赛道领头羊。

竹间智能成立于20158月,创始人简仁贤曾是微软(亚洲)互联网工程院副院长,主导负责了微软小冰的开发。成立三年,如今的竹间智能已是一家团队规模达数百人,且预计今年要实现盈亏平衡的AI公司。

据竹间智能CTO翁嘉颀介绍,成立至今,竹间智能走过了三个发展阶段。

第一个阶段是20158月到20168月,这期间是产品封闭开发,打造了懂情感、有记忆的对话机器人;

第二个阶段是20169月到2018年初,商业化落地阶段。在电商、金融、智能终端和智能客服等领域都有成功落地应用案例。

第三个阶段是从20185月开始,在AI概念大肆流行两三年之后,各大企业开始看重技术落地的实际商业价值,而且企业希望发展自身的AI能力,从需求全套解决方案到单点能力,竹间智能也从做项目转为技术能力输出,产品标准化程度随之提高。

目前,竹间智能处于第二阶段和第三阶段的叠加期,但CTO判断,第三阶段是市场需求驱动,是必然趋势。

近期,爱分析专访竹间智能CTO翁嘉颀,就“多模态情感技术识别”和竹间智能的业务发展、战略和行业趋势进行交流。

情绪识别中,语音情绪最重要

爱分析:竹间智能的对话机器人能做到陪伴,背后是用到哪些技术?

翁嘉颀:过往的对话机器人,是有几百万语料库,你说一句“早安”,我从库里查一句回答语。

我们的做法是背后有40多个模块,类似搜索引擎,每个模块都会出答案,每个答案有信心分数,收到答案后会根据信心分数去做调整,所以我们的聊天会更丰富。

其次,会根据上下文、情绪及意图做分数的调整,例如我们现在谈人工智能,出现一个模块的回答是美食,我知道上下文对话主题是人工智能,所以每一个跟美食相关的答案应该扣分或直接丢掉。我可以根据情绪、上下文、根据意图来挑选或过滤答案。这都是过去的机器人所没有的。

爱分析:如何做到让机器人有记忆、懂上下文?

翁嘉颀:最直接的是,我们对每个用户会记得用户画像,分长期记忆跟短期记忆,长期会永久记得,比如你说喜欢吃苹果,判断这句话是肯定语气的陈述句,就会在你的用户画像里永久记得你喜欢苹果。

还有用户的属性,性别男或女,随着语料的积累,对用户的属性和画像就越丰富,比如生活习惯,知道用户通常是七点下班,某一天九点下班,回答就会是“今天很辛苦”。

爱分析:如何识别情绪?

翁嘉颀:识别情绪目前分三种,一种是人脸表情,跟机器人聊天看不到人脸表情;第二,也是最重要的,是语音的情绪,语音情绪我们目前分了四种:生气,中性,悲伤,跟快乐;

第三是文字的情绪,我们分了22种,我们是把语音情绪跟文字的情绪做结合。

举例来说,一句话“我高考考了500分”,看到这句文字,不知道该恭喜还是安慰。但如果能知道他讲话的语气,同样的文字,但是语音情绪不一样,所以在选择回答的时候就不一样了。

当人脸表情、语音和文字都出现的时候,语音的比重是最高的。

爱分析:语音的四种情绪如何去识别?

翁嘉颀:看波形,讲话情绪不同,看整个声波能识别,人在愤怒的时候,讲话音量比较大,语调高,语速也会变快。

或者是你声音变得特别的低,特别的慢,那可能是代表愤怒。那悲伤的话你会有一些啜泣的声音,会哭泣的声音或怎么样,或者是有那种哭的那种声调。那快乐的话通常会哈哈笑或什么,有的时候声音也会比较大声。

爱分析:文字的情绪识别是靠关键词比对吗?

翁嘉颀:靠关键字大概只能做到六十几分,如果只做正负中三种情绪,关键词可以做。要做22种情绪,关键词就没办法。

22种情绪主要是靠句法、句型、人称,还有用深度学习的方式。我们做了大量标注,标注了几十万条句子,而且我们每个句子是三个人标注,三个人都说这句是惊讶,那这是惊讶,三个人如果意见不一致,还有心理学家来做最后的判断。所以我们的数据量比较多,质量也很好。

爱分析:数据标注是竹间做,还是外包?

翁嘉颀:要自己做,外包质量不行,外包可以用在生产数据,但标注数据必须自己做。

我们巅峰期整个公司大概有200个标注人员,而且是由语言学家产生规则和做最后的检验,每一条数据三个人标注,可以互相检查、互相校对。我们人脸表情标注了180-200万张照片,全部都是自己标注的。

爱分析:三种方式分开识别后,然后对结果做整合吗?

翁嘉颀:对,分开识别再整合出结果。

处理结果有两种办法,一种是根据三种不同方式识别出来的情绪,去算比重跟加权。

第二种方式是用深度学习模型,人脸、语音和文字情绪,分别识别出来后,再用深度学习模型去跑,去计算最后的情绪结果。

这两种方式我们都用,如果两个答案不一样,我们再来调比重。

爱分析:结果整合时的第二种方式,深度学习模型要用什么数据去训练?

翁嘉颀:做多模态的训练,我们是拿视频的数据。每个视频都算出文字情绪、语音情绪跟人脸表情,用视频能保证文字、语音和表情所对应的情绪是同一时间、同一情境下的。

如果是分散的,文字的情绪,和语音的情绪,可能是同一句话,但不是同一个情境,训练出来的模型是不准的。

多模态情感识别适合教育和新零售场景

爱分析:多模态情感识别技术,竹间智能是应用在客服这个场景里面吗?

翁嘉颀:以金融场景举例,比如客户信用卡掉了,机器人会先安抚不要生气,其实这个用处不大,因为客户不会因为一两句安慰就觉得OK了,最后仍然要解决问题,所以智能客服还没进步到这个地步。

价值比较大的是在教育、新零售和HR的场景。教育场景上,比如老师在讲课的时候,十个学生里面有八个表情都是疑惑的,老师讲课的方式可能要调整,这是一方面。

另一方面,有一个学生从头到尾都不专心,而且听不懂,也没有举手发问。那教育机构可以跟家长说,这小孩在这个班级没什么用,你要花更多钱到一对三或一对一的模式去学习,那家长是会买单的。

新零售场景比如无人零售,可以通过机器人跟客户进行主动交互,这种交互里三种识别情绪的方式都能用得上。比如一个头发黑长直的女生走过来,可以跟她说长发很漂亮,某某护发素怎样。

另一个是HR行业。我是一个面试时缺乏自信的人,那我可以拿着APP先练习,APP把我这段视频做个分析,讲话声音太小了,或表情不够自然之类的,这是一个。

反过来也能服务企业HR部门,比如校招收到一堆简历,很难过滤,因为学历一样,年纪一样,看起来都差不多。可以让每个人先拍摄一段视频,我们的技术可以计算出这个人的一些人格特质,对视频里的情绪、表达和回答内容进行语音、人脸和文字多方面的分析,帮助HR进行招聘筛选。

爱分析:这个HR场景的定价逻辑,是按筛选了多少份简历收费?

翁嘉颀:目前还没有到这么细致,还是按年服务收费。

爱分析:年客单价在什么量级?

翁嘉颀:通常是几十万量级,我们今年下半年才开始这个场景的应用,第三阶段的底层技术输出才开始发展,客户也还在尝试,大家都在试。

爱分析:从第二阶段卖解决方案,现在客户更想要能力,竹间认为这个需求的变化对AI公司是利还是弊?

翁嘉颀:对技术导向的公司来说是好事,对商务或者整合导向的公司来说就不一定了,因为企业有了自己的AI团队,从技术公司采购技术能力,自己可以开发的,可能不需要集成商了。所以看公司的性质,对服务类型的公司未必是好事,但对于技术公司来说是利好。

爱分析:对竹间来讲,从第二阶段到第三阶段,客单价会降低吗?

翁嘉颀:其实不会。因为他买这个能力,每年要付钱,而且技术不断进步,它不像数据库,买了可以用个五年。

第二阶段,首年费用会更高,比如企业花100万买,后续每年是运维费用,只有十万二十万;但第三阶段卖技术,首年可以卖50万,第二年还是50万,第三年还可以50万。从生命周期来看,是不会降低的。