两年4轮融资，三角兽何以在NLP领域称雄？-爱分析

2018年10月，谷歌发布BERT模型，在机器阅读测试中打破11项纪录，被认为是NLP领域的巨大突破。

NLP技术除了在学术研究上不断突破，在商业落地方面也获得了显著发展。虽然语义作为AI领域更深层的基础技术，在国内起步较晚，但伴随2016年3月AlphaGo的一夜成名，以及 4月底、5月初Google和Facebook开发者大会都以NLP作为主题，在此之后，国内资本、企业和政府均迅速对“人工智能语义”领域显示出极大的兴趣。

2017年国家针对人工智能出台的2030计划，也将自然语言领域和图像、无人车等八大技术列入政府重点支持对象。在资本的青睐和多方加持下，行业内的NLP创新公司也在不断突破技术，不断探索市场规模更大、更具想象空间的落地应用。

作为国内人工智能语义领域最大的创业公司之一，三角兽历经两年半探索、四轮融资，组建起目前国内最大的人机对话团队；凭借在语义理解、开放域聊天、多轮对话方面的雄厚技术实力，服务众多领域头部客户，提供智慧识屏方案、对话交互平台和智能客服解决方案。针对全场景、多领域用户和垂直行业，全面改善用户体验，提升交互效率，降低运营成本。

数据和人才是壁垒

NLP属于认知AI范畴，要让机器学会和人一样的认知，就需要大量的数据让机器进行训练。在数据量上，三角兽的真实交互语料数据逼近1000亿，丝毫不逊于互联网巨头。

虽然百度拥有最多搜索数据，腾讯拥有最大的社交数据，阿里在电商数据上占据绝对优势。但在训练NLP的对话数据上，巨头并不占有优势。举例而言，微信里的聊天并不适合作为训练对话的数据，因为微信里一对一的聊天属于熟人社交，具有很多隐含的背景信息，并且群聊对话交织错杂、难以区分，都不是优质的训练数据。

三角兽自身的数据主要来源于公开网络，通过在各类社区、社交网站等平台获取互联网用户公开的聊天数据，对生数据进行标注、清洗，再用于模型训练。目前三角兽已经通过机器整理出 150 亿可用于机器学习的离线语料，三角兽的对话系统已学习了接近 70 亿。此外，三角兽对话交互能力已经覆盖超6000万台智能设备，日均新设备数增长50万台，每天用户与智能终端之间都在产生海量真实的交互数据，这也成为了三角兽不断加高的数据壁垒。

除了数据积累庞大、大量智能终端每日提供最新语料外，三角兽的另一大优势在于团队。三位创始人中，王卓然是百度度秘中控决策系统负责人，亓超是微软小冰、百度度秘开放域聊天技术负责人，核心技术团队均来自于微软、百度、腾讯、阿里、IBM、乐视等公司。

在CTO亓超看来，NLP技术相比图像、语音的商业化落地更为缓慢，原因在于NLP技术解决的问题更难被清楚定义。这一特点也决定了，不具备经验的团队在进行NLP开发时很容易走偏方向，而王卓然和亓超在NLP技术方面深耕十多年的积累，以及资深算法工程师团队的丰富经验，都成为了三角兽的宝贵财富。

对话交互平台覆盖成人和儿童

让与人接触的所有设备都成为智能设备，让机器更理解人并能够自然顺畅地与人交互，核心关键是NLP技术。三角兽的自然语言理解和人机对话技术，能满足用户直接和潜在需求，提供聊天、陪伴和服务全场景的解决方案。

在成人会产生交互的手机语音助手、智能音箱、智能电视、智能家居和智能车载等场景方面，三角兽都有所接入。智能设备与开放域聊天对话的能力强弱，需要从对话轮数、对话次数和话题多样性、相关性和趣味性等多个维度来衡量，三角兽在这些方面均处于行业领先水平。

亓超认为，开放域聊天必须满足两点：聊天话题是开放的、回复内容也是开放的。基于人工设定规则去回答，答案非常有限，很难多样化；另一种做法是建立知识图谱，但是会面临通用知识图谱构建难度大，大量非结构化数据难以表示的问题。三角兽的做法是进行检索式聊天，在按需建图谱和后备规则之外，可以实时在线检索，给出具有时效性的最新检索答案。

面向儿童的聊天对话，很重要的一点是保障其安全性和健康度。在儿童聊天方面，三角兽的服务已覆盖3/4的儿童头部品牌，这取决于其采用的学术界最前沿的技术，即生成式聊天，使过滤后的语料再经过生成式模型生成对话，儿童聊天对话不良率低于0.006%，为儿童保证了一个更加健康、安全的聊天环境。

三角兽的对话交互平台目前已接入百度的小度音箱、小米小爱同学、腾讯听听音箱、富士康晓乐机器人、长虹电视、读书郎、米兔故事机、火火兔、小天才手表等，并与DuerOS、科大讯飞、云知声、猎户等平台进行合作。

2018年新推出智慧识屏接入手机过亿部

智慧识屏是三角兽今年新推出业务，OPPO、vivo、魅族等十四家安卓品牌的新机型都已搭载这项功能。预计2018年底到2019年第一季度，三角兽智慧识屏功能将覆盖1.5亿台左右的新智能手机，占新型号手机出货量的一半，2019年底覆盖的新老机型将突破5亿台。

该项技术将语义理解能力嵌入手机底层OS，长按手机中任何文本信息，即可触发这个功能，调用NLP能力来自动分析用户触碰文本的意图，并识别里面有价值的信息，判断出可以满足用户需求的相关信息，以卡片的形式弹出，用户直接点击卡片就能够一步完成操作，省去在各个APP之间跳转的麻烦。

目前智慧识屏的价值实体已接入上百个不同领域的资源和服务，满足了用户在购物、快递、地图、餐厅、酒店、影视、音乐、动漫、明星等诸多方面的需求。比如在2018年世界杯期间，三角兽就与手机厂商进一步合作了世界杯主题的服务，可以精准进行球星、球队、赛事等相关信息的识别，并进行内容整合、新闻及资源推送等。

对话交互平台和智慧识屏之外，在NLP厂商聚集的智能客服领域，三角兽服务于各领域多家头部企业，针对企业客服场景，提供语音导航、客服质检、智能问答、业务办理等自动化服务，实现7X24即时响应；落地的客户包括：中国移动、恒生电子、广发证券、天弘基金、东方证券、微软、腾讯、光明网、安永等。

近期，爱分析专访三角兽创始人兼CTO亓超，就NLP的各项技术和应用进行了深度交流。

NLP难点在于问题界定

爱分析：相比语音和视觉，NLP技术比较明显的难点在哪？

亓超：明显的特点是，NLP要解决的问题很难定义。

图象处理的问题是相对好定义的，无论场景在哪里，问题处理难度是一致的，比如人脸识别，是在室内识别，还是在广场上识别，都会受到光线遮挡等因素的影响，只不过不同环境影响的强弱有所不同。

但NLP不一样，NLP融合了很多知识性的概念，有各行各业的知识，所以造成了NLP很难像图象处理那样scale，复制很不容易。举例来说，“苹果”这个单词, 在不同上下文中所代表的含义就会有很大的区别，可以是指一种水果，也可能是作为一家公司，又或者是在其他场景下，比如歌名或者电影名也会经常作为它的含义。这就需要有背景知识，很难通过简单规则进行定义。

问题一旦定义不清楚，解决方案就会有偏差，结果就会很不理想。比如开放域聊天，假如基于规则的关键词系统去做，预先编排好一个人从出生到七八十岁会遇到的所有可能的对话，让机器按“剧本”来走，这就是完全不可能的，现实情况也不是这样。

爱分析：三角兽创始团队在NLP领域十多年的经验，对解决这个问题有哪些方面的帮助？

亓超：除了创始团队在开放域聊天、垂直领域任务型对话以及中控方面的经验积累，NLP还涉及一些基础技术和基础方法，经验让我们知道每一个细节问题处理上的know-how。

比如分词，不同场景对切词的标准是不一样的。比如“什么时候”四个字，在客服领域，会希望切一个更大的片段，“什么时候”四个字会切在一起来进行语言计算；但在检索的基础系统，则希望切一个更小的片段，会切成“什么”、“时候”两个词，这样当用户说“啥时候”时，也可以被检索出来。

还有底层的语言计算能力。比如说“我睡不着”和“我失眠了”，这两句话讲的是同一个事情，我们希望有一些通用的句子表示的模型，在这个模型里计算出这两句话距离应该很近，这涉及到数据的建设。数据建设一方面要抓取数据，另一方面要做各种处理，其中一部分还要做标注，但数据太多是无法标注全的，这种两句相近语句的训练，我们使用的是两亿组这种数据对，这能够在不标注的情况下让机器进行学习，这些方面都是属于我们在中控和开放域聊天以外的积累。

爱分析：NLP从底层往上的架构大概是怎样的？

亓超：整体架构大概是这样：底层是一些基础技术和基础工具，需要搭建比如说机器学习的工具，机器学习里面深度学习又会单独作为一个模块。

再就是NLP的基础模块，包括分词、词性、词法分析、句法结构等。还有数据处理模块，Hadoop、Spark这些平台要有，聚类、数据清洗和标注工具等都要具备。此外，人类的语言文法规则太多，机器不能覆盖所有，对于一些异常问题，需要有后备的规则系统去应对。

以上是底层，再往上是构造各个子模块，比如语义计算、情绪情感识别。这些子模块不能成为独立产品，识别情绪是为了干什么，因此“识别”只是过程中的一步。

子模块的组合，会形成子系统，比如开放域聊天，就组合了语义计算、情绪识别和检索的模块。问答系统、开放域聊天和任务驱动对话等子系统，就可以单独输出作为接口封装。

再往上层是一个中控系统。人有不同角色，在公司和在家里，对话风格是不一样的。中控的作用，就是判断该用哪个子系统，如果环境有变化，中控就要做对应的切换。

爱分析：NLP技术有哪些技术路线？

亓超：可以有多个维度划分，从大的方向来说，分为基于规则的和基于统计的，现在基本没有纯人工规则在做的。比如聊天，工程师并不都擅长聊天，让他们去做人工规则是很痛苦的，而且真实聊天是千姿百态的，人工总结也不现实。所以就是让机器去学习大量的数据，从中学会一些pattern。

词性、句法这些都是对人友好的维度，但机器是不理解的，对机器友好的是计算数字和距离的远近。所以这是个理念问题，我们也会更多采用对机器友好的方式做，因为是机器在理解，人看不懂没关系，这就是说会更多地采用深度学习的方式。三角兽也是一个以深度学习作为基因的公司。

开放域聊天与多轮对话是差异巨大的两项技术

爱分析：开放域聊天，和任务驱动多轮对话，这两个在技术实现上有多大不同？

亓超：有很大不同，因为这两项技术目标不一样，所以实现方法也不一样。

任务驱动的对话有一个非常重要的指标是完成率，其次是通过多少轮完成，比如点菜这项任务，用户都不希望花很长时间才能点完，而是越快越好。

开放域聊天则相反，用户会希望对话越长越好，天南海北的聊，非常重要的指标是对话轮数和对话次数。所以目标不一样，在这个目标下，实现方法就很不同。

爱分析：开放域聊天，除了对话轮数和次数，还会关注哪些标准？

亓超：除了对话轮数和次数这种量化指标外，因为聊天聊得好或不好是很主观的判断。对于聊天的评估还有这几个衡量维度：

第一个衡量维度是多样性，回复都一成不变就会很枯燥，衡量多样性的指标是平均每个query可用的回复个数。这就对数据量有很高的要求，三角兽积累的离线数据量逼近1000亿，都是从公开网络获取的数据，这个数据量是很大的，相当于全国人民都在提供回复，肯定要比靠公司里的人去想丰富得多。

第二个维度是要评估聊天质量。质量有几个重要的指标，一个是相关性，回答不能驴唇不对马嘴。其次是在相关的基础上要有趣味性。相关性很容易达到，“呵呵”就是万能回复，可以回答一切问题，这仅是相关，但没办法进行延展，因此趣味性也很重要。