人工智能

两年4轮融资,三角兽何以在NLP领域称雄?

稳而快的头部NLP公司

2018年11月19日
调研 | 李喆 刘馥亮 撰写 | 刘馥亮
  • 人工智能
  • NLP

201810月,谷歌发布BERT模型,在机器阅读测试中打破11项纪录,被认为是NLP领域的巨大突破。

NLP技术除了在学术研究上不断突破,在商业落地方面也获得了显著发展。虽然语义作为AI领域更深层的基础技术,在国内起步较晚,但伴随20163AlphaGo的一夜成名,以及 4月底、5月初GoogleFacebook开发者大会都以NLP作为主题,在此之后,国内资本、企业和政府均迅速对人工智能语义领域显示出极大的兴趣。

2017年国家针对人工智能出台的2030计划,也将自然语言领域和图像、无人车等八大技术列入政府重点支持对象。在资本的青睐和多方加持下,行业内的NLP创新公司也在不断突破技术,不断探索市场规模更大、更具想象空间的落地应用。

作为国内人工智能语义领域最大的创业公司之一,三角兽历经两年半探索、四轮融资,组建起目前国内最大的人机对话团队;凭借在语义理解、开放域聊天、多轮对话方面的雄厚技术实力,服务众多领域头部客户,提供智慧识屏方案、对话交互平台和智能客服解决方案。针对全场景、多领域用户和垂直行业,全面改善用户体验,提升交互效率,降低运营成本。

数据和人才是壁垒

NLP属于认知AI范畴,要让机器学会和人一样的认知,就需要大量的数据让机器进行训练。在数据量上,三角兽的真实交互语料数据逼近1000亿,丝毫不逊于互联网巨头。

虽然百度拥有最多搜索数据,腾讯拥有最大的社交数据,阿里在电商数据上占据绝对优势。但在训练NLP的对话数据上,巨头并不占有优势。举例而言,微信里的聊天并不适合作为训练对话的数据,因为微信里一对一的聊天属于熟人社交,具有很多隐含的背景信息,并且群聊对话交织错杂、难以区分,都不是优质的训练数据。

三角兽自身的数据主要来源于公开网络,通过在各类社区、社交网站等平台获取互联网用户公开的聊天数据,对生数据进行标注、清洗,再用于模型训练。目前三角兽已经通过机器整理出 150 亿可用于机器学习的离线语料,三角兽的对话系统已学习了接近 70 亿。此外,三角兽对话交互能力已经覆盖超6000万台智能设备,日均新设备数增长50万台,每天用户与智能终端之间都在产生海量真实的交互数据,这也成为了三角兽不断加高的数据壁垒。

除了数据积累庞大、大量智能终端每日提供最新语料外,三角兽的另一大优势在于团队。三位创始人中,王卓然是百度度秘中控决策系统负责人,亓超是微软小冰、百度度秘开放域聊天技术负责人,核心技术团队均来自于微软、百度、腾讯、阿里、IBM、乐视等公司。

CTO亓超看来,NLP技术相比图像、语音的商业化落地更为缓慢,原因在于NLP技术解决的问题更难被清楚定义。这一特点也决定了,不具备经验的团队在进行NLP开发时很容易走偏方向,而王卓然和亓超在NLP技术方面深耕十多年的积累,以及资深算法工程师团队的丰富经验,都成为了三角兽的宝贵财富。

对话交互平台覆盖成人和儿童

让与人接触的所有设备都成为智能设备,让机器更理解人并能够自然顺畅地与人交互,核心关键是NLP技术。三角兽的自然语言理解和人机对话技术,能满足用户直接和潜在需求,提供聊天、陪伴和服务全场景的解决方案。

在成人会产生交互的手机语音助手、智能音箱、智能电视、智能家居和智能车载等场景方面,三角兽都有所接入。智能设备与开放域聊天对话的能力强弱,需要从对话轮数、对话次数和话题多样性、相关性和趣味性等多个维度来衡量,三角兽在这些方面均处于行业领先水平。

亓超认为,开放域聊天必须满足两点:聊天话题是开放的、回复内容也是开放的。基于人工设定规则去回答,答案非常有限,很难多样化;另一种做法是建立知识图谱,但是会面临通用知识图谱构建难度大,大量非结构化数据难以表示的问题。三角兽的做法是进行检索式聊天,在按需建图谱和后备规则之外,可以实时在线检索,给出具有时效性的最新检索答案。

面向儿童的聊天对话,很重要的一点是保障其安全性和健康度。在儿童聊天方面,三角兽的服务已覆盖3/4的儿童头部品牌,这取决于其采用的学术界最前沿的技术,即生成式聊天,使过滤后的语料再经过生成式模型生成对话,儿童聊天对话不良率低于0.006%,为儿童保证了一个更加健康、安全的聊天环境。

三角兽的对话交互平台目前已接入百度的小度音箱、小米小爱同学、腾讯听听音箱、富士康晓乐机器人、长虹电视、读书郎、米兔故事机、火火兔、小天才手表等,并与DuerOS、科大讯飞、云知声、猎户等平台进行合作。

2018年新推出智慧识屏接入手机过亿部

智慧识屏是三角兽今年新推出业务,OPPOvivo、魅族等十四家安卓品牌的新机型都已搭载这项功能。预计2018年底到2019年第一季度,三角兽智慧识屏功能将覆盖1.5亿台左右的新智能手机,占新型号手机出货量的一半,2019年底覆盖的新老机型将突破5亿台。

该项技术将语义理解能力嵌入手机底层OS,长按手机中任何文本信息,即可触发这个功能,调用NLP能力来自动分析用户触碰文本的意图,并识别里面有价值的信息,判断出可以满足用户需求的相关信息,以卡片的形式弹出,用户直接点击卡片就能够一步完成操作,省去在各个APP之间跳转的麻烦。

目前智慧识屏的价值实体已接入上百个不同领域的资源和服务,满足了用户在购物、快递、地图、餐厅、酒店、影视、音乐、动漫、明星等诸多方面的需求。比如在2018年世界杯期间,三角兽就与手机厂商进一步合作了世界杯主题的服务,可以精准进行球星、球队、赛事等相关信息的识别,并进行内容整合、新闻及资源推送等。

对话交互平台和智慧识屏之外,在NLP厂商聚集的智能客服领域,三角兽服务于各领域多家头部企业,针对企业客服场景,提供语音导航、客服质检、智能问答、业务办理等自动化服务,实现7X24即时响应;落地的客户包括:中国移动、恒生电子、广发证券、天弘基金、东方证券、微软、腾讯、光明网、安永等。

近期,爱分析专访三角兽创始人兼CTO亓超,就NLP的各项技术和应用进行了深度交流。

NLP难点在于问题界定

爱分析:相比语音和视觉,NLP技术比较明显的难点在哪?

亓超:明显的特点是,NLP要解决的问题很难定义。

图象处理的问题是相对好定义的,无论场景在哪里,问题处理难度是一致的,比如人脸识别,是在室内识别,还是在广场上识别,都会受到光线遮挡等因素的影响,只不过不同环境影响的强弱有所不同。

NLP不一样,NLP融合了很多知识性的概念,有各行各业的知识,所以造成了NLP很难像图象处理那样scale,复制很不容易。举例来说,苹果这个单词, 在不同上下文中所代表的含义就会有很大的区别,可以是指一种水果,也可能是作为一家公司,又或者是在其他场景下,比如歌名或者电影名也会经常作为它的含义。这就需要有背景知识,很难通过简单规则进行定义。

问题一旦定义不清楚,解决方案就会有偏差,结果就会很不理想。比如开放域聊天,假如基于规则的关键词系统去做,预先编排好一个人从出生到七八十岁会遇到的所有可能的对话,让机器按剧本来走,这就是完全不可能的,现实情况也不是这样。

爱分析:三角兽创始团队在NLP领域十多年的经验,对解决这个问题有哪些方面的帮助?

亓超:除了创始团队在开放域聊天、垂直领域任务型对话以及中控方面的经验积累,NLP还涉及一些基础技术和基础方法,经验让我们知道每一个细节问题处理上的know-how

比如分词,不同场景对切词的标准是不一样的。比如什么时候四个字,在客服领域,会希望切一个更大的片段,什么时候四个字会切在一起来进行语言计算;但在检索的基础系统,则希望切一个更小的片段,会切成什么时候两个词,这样当用户说啥时候时,也可以被检索出来。

还有底层的语言计算能力。比如说我睡不着我失眠了,这两句话讲的是同一个事情,我们希望有一些通用的句子表示的模型,在这个模型里计算出这两句话距离应该很近,这涉及到数据的建设。数据建设一方面要抓取数据,另一方面要做各种处理,其中一部分还要做标注,但数据太多是无法标注全的,这种两句相近语句的训练,我们使用的是两亿组这种数据对,这能够在不标注的情况下让机器进行学习,这些方面都是属于我们在中控和开放域聊天以外的积累。

爱分析:NLP从底层往上的架构大概是怎样的?

亓超:整体架构大概是这样:底层是一些基础技术和基础工具,需要搭建比如说机器学习的工具,机器学习里面深度学习又会单独作为一个模块。

再就是NLP的基础模块,包括分词、词性、词法分析、句法结构等。还有数据处理模块,HadoopSpark这些平台要有,聚类、数据清洗和标注工具等都要具备。此外,人类的语言文法规则太多,机器不能覆盖所有,对于一些异常问题,需要有后备的规则系统去应对。

以上是底层,再往上是构造各个子模块,比如语义计算、情绪情感识别。这些子模块不能成为独立产品,识别情绪是为了干什么,因此识别只是过程中的一步。

子模块的组合,会形成子系统,比如开放域聊天,就组合了语义计算、情绪识别和检索的模块。问答系统、开放域聊天和任务驱动对话等子系统,就可以单独输出作为接口封装。

再往上层是一个中控系统。人有不同角色,在公司和在家里,对话风格是不一样的。中控的作用,就是判断该用哪个子系统,如果环境有变化,中控就要做对应的切换。

爱分析:NLP技术有哪些技术路线?

亓超:可以有多个维度划分,从大的方向来说,分为基于规则的和基于统计的,现在基本没有纯人工规则在做的。比如聊天,工程师并不都擅长聊天,让他们去做人工规则是很痛苦的,而且真实聊天是千姿百态的,人工总结也不现实。所以就是让机器去学习大量的数据,从中学会一些pattern

词性、句法这些都是对人友好的维度,但机器是不理解的,对机器友好的是计算数字和距离的远近。所以这是个理念问题,我们也会更多采用对机器友好的方式做,因为是机器在理解,人看不懂没关系,这就是说会更多地采用深度学习的方式。三角兽也是一个以深度学习作为基因的公司。

开放域聊天与多轮对话是差异巨大的两项技术

爱分析:开放域聊天,和任务驱动多轮对话,这两个在技术实现上有多大不同?

亓超:有很大不同,因为这两项技术目标不一样,所以实现方法也不一样。

任务驱动的对话有一个非常重要的指标是完成率,其次是通过多少轮完成,比如点菜这项任务,用户都不希望花很长时间才能点完,而是越快越好。

开放域聊天则相反,用户会希望对话越长越好,天南海北的聊,非常重要的指标是对话轮数和对话次数。所以目标不一样,在这个目标下,实现方法就很不同。

爱分析:开放域聊天,除了对话轮数和次数,还会关注哪些标准?

亓超:除了对话轮数和次数这种量化指标外,因为聊天聊得好或不好是很主观的判断。对于聊天的评估还有这几个衡量维度:

第一个衡量维度是多样性,回复都一成不变就会很枯燥,衡量多样性的指标是平均每个query可用的回复个数。这就对数据量有很高的要求,三角兽积累的离线数据量逼近1000亿,都是从公开网络获取的数据,这个数据量是很大的,相当于全国人民都在提供回复,肯定要比靠公司里的人去想丰富得多。

第二个维度是要评估聊天质量。质量有几个重要的指标,一个是相关性,回答不能驴唇不对马嘴。其次是在相关的基础上要有趣味性。相关性很容易达到,呵呵就是万能回复,可以回答一切问题,这仅是相关,但没办法进行延展,因此趣味性也很重要。