企业服务

AI将渗透50%文本处理工作,达观数据打造通用性跨行业NLP平台

NLP领域的商汤?

2018年08月21日
调研 | 李喆 刘馥亮 撰写 | 刘馥亮
  • 企业服务
  • NLP

在图像识别、语音识别等AI技术成熟应用到各行各业中之后,NLP(自然语言处理)被认为是下一个成熟的AI技术。

最近两三年,涌现出诸多创新公司,运用NLP及基于NLP的知识图谱技术于各个行业,改进实际业务流程,提高业务质量,辅助人甚至是减少对人力的依赖。

爱分析过往访谈的公司中,有应用于客服领域的小i机器人,有应用于反欺诈和贷后催收领域的拍拍贷,也有用于小学初中数学和英语辅导的论答。可以看到,NLP和知识图谱在客服、金融和教育等领域都在逐步渗透。

与上述专注于特定行业某个垂直场景的公司不同,2015年成立的达观数据,是一家服务跨行业的通用性NLP技术提供商。

迄今为止,达观累计服务数百家客户,包括华为、平安、浦发、国家知识产权局等各类型企业,据创始人陈运文透露,2017年已实现盈亏平衡。

数据不是壁垒,文本智能分析与行业经验需有机结合

达观为服务客户而构建的知识图谱,可分成两个阶段:第一阶段是构造某个行业专用的知识图谱,比如金融行业,采集该行业公开的大量术语、资料,让机器阅读、训练,形成行业专用的知识图谱。

第二阶段是针对客户的具体应用场景,对行业知识图谱进一步加工,比如针对证券公司在上市招股书这一场景,通过NLP技术对知识进行获取、形式化,最后表达为属于客户的知识图谱。

第一阶段的行业知识图谱,达观日常在不断地完善,每天都在研发;第二阶段客户适用的专属知识图谱,通常在1-2个月时间内完成搭建。两个阶段都完成,方构建起一个能服务于客户、具备应用价值的知识图谱。

知识图谱的搭建,是人机结合的过程。其中,人力主要发挥作用的地方是数据标注和纠错,根据行业和具体场景的不同,对人力的要求也不一样:知识门槛越高、专业性越强的场景,对人员的要求也越高。

达观构建知识图谱所需的数据,主要是各行业公开的文本数据和客户内部数据,自身并没有独特数据源,因此数据源并非是达观的竞争壁垒。

但精标注后的数据是达观的竞争壁垒。虽然数据来自公开渠道或由客户提供,但这些数据都是“生语料”,将“生语料”深加工为“熟语料”的数据处理过程,依赖于达观对行业经验的积累。

行业专业知识主要是在服务客户的过程中积累,因此,达观累计服务数百家客户的经验,凝结成一行行代码,不断完善优化服务客户的产品。

 
从搜索、推荐到文本智能分析,未来为大企业搭建NLP平台

基于NLP技术和所构建的各行业知识图谱,达观为客户提供围绕文本处理诸多环节的产品和行业解决方案。

处理文本的场景,包括写作、阅读、查找、归档管理、纠错、复核等等环节。达观最早切入的环节是阅读和查找,为互联网媒体、财经资讯网站和银行机构的手机银行APP提供个性化推荐和垂直搜索服务。

在服务过程中,达观根据客户提出的新需求,开发和推出新的产品。过去一年,达观开始服务企业内部管理,比如合同审阅、文档纠错、工单管理、客户意见分析和人岗匹配等。

对企业而言,机器可以帮助降低出错率、提高文档产出质量和文档处理效率,在某些简单环节甚至可以取代人力。以达观服务的某知名保险公司为例,达观帮助其合同审核团队从800人降低到600人,而且双方期望最终能减少到100人。

进入企业内部,让达观更加深入行业,对客户的业务场景也理解更深。陈运文表示,为企业客户打造一个一个产品之后,未来将为大企业搭建NLP平台,支撑企业内所有部门对文本处理的需求,这也符合企业统一管理的诉求。从底层平台到上层的应用解决方案,达观将构建起更高的竞争壁垒。

客户从互联网企业到传统大型企业,LTV提高

最早的搜索、推荐产品,主要服务的是互联网企业,付费能力不高,但对新技术接受度比较高,而且互联网企业具备很好的信息化基础。

除了产品不断丰富,达观目前也从服务互联网公司转向大型企业客户,比如运营商、中海油和银行、保险、基金等金融机构。大客户付费能力强,客户LTV更高,但小客户需求可能代表着技术发展方向,因此达观现阶段二者都服务,不会偏废。

与客户变化相伴而来的,是交付形式的变化和服务的加重。之前服务互联网客户更多是以API接口形式,而服务大客户则需要私有化部署,收取项目建设费和后续维保费用。

2018年,达观在北京、成都、西安等地新设办事处,既是为了开拓更广阔市场,也是贴近客户、提供更及时服务的需要。

达观数据的客户数在过去一年实现了快速增长,陈运文认为,整个市场刚开始起步,但需求是旺盛的,达观今年也将加速扩张抢占市场份额,预计到年底团队规模会在现有基础上翻番。

现阶段,达观更多是通过直销获客,今年也开始寻找更多合适的合作伙伴,包括代理商和集成商,共同去拓展商业机会。但即使是通过代理商获取的客户,后续的服务仍将由达观提供。由此可见,文本智能处理是个重服务的行业,为了保证客户口碑,必须以做重的方式服务客户。

文本密集之处,即有达观的客户

陈运文认为,机器对通用领域的文本的理解,现阶段还不够成熟,比如日常对话、口语文本的理解,因此达观做的是专用领域的文本,尤其是书面文本的智能处理。

由于中文的抽象和灵活性、复杂度,达观未来仍将加大对研发和技术的投入,目前不到200人的团队规模里,技术人员占六成。

在继续加大研发投入,推动技术进一步发展,产品优化迭代的同时,达观将拓展更多的行业。在陈运文看来,只要是文本密集的地方,就有成为达观客户的机会。

现有已覆盖的金融、法律等行业,就是文本密集行业,而以文山会海著称的体制内单位,包括各级政府、委办局和各类协会、监管机构,也将是达观未来拓展的方向。

近期,爱分析专访达观数据创始人陈运文,就NLP和知识图谱的行业趋势、公司战略进行了深度交流,分享如下。

人机结合,共同构建知识图谱

爱分析:NLP与知识图谱的关系是怎样的?

陈运文:知识图谱是NLP的一项技术,如果把NLP画成一个大圈,知识图谱是里面的小圈,在NLP领域,知识图谱帮助计算机加深对文字理解的深度。

爱分析:不用知识图谱,NLP也能完成对文字的理解?

陈运文:可以,但理解得不够深。举个例子,这个人长得像西游记里的二师兄,单纯用NLP技术只能理解字面意思,但有了知识图谱,能够理解得更深入,能想到西游记的作者,能想到西游记里有唐僧、孙悟空。让计算机加深对文字的理解,要靠知识图谱。

爱分析:建一个知识图谱大概有哪几步?

陈运文:通常来说,我们构建知识图谱的过程分成两阶段。

第一个阶段,我们要构造一个行业专用的知识图谱,比如说金融行业,法律行业,传媒行业,每个垂直行业都要采集大量术语、信息、资料,这些信息都是网上公开的,让计算机阅读以后,构建起一个专用的知识图谱,这是第一阶段。

第二阶段,针对每一个客户的诉求,把行业知识图谱进一步加工,变成客户自己领域的知识图谱。举例来说,每个客户内部有很多产品说明书、债券说明书、术语库、文档资料,要让计算机把这些资料也完成一个阅读理解,基于这些文档资料把知识点抽取出来,构建起一个属于客户自己的知识图谱。

用行业的通用知识图谱,结合客户专用的知识图谱,就构建起一个真正面向实用的知识图谱,这个系统才是真正有价值,能够给客户提供服务。

爱分析:两个阶段分别需要耗时多长?

陈运文:通用的知识图谱,我们是不断的在构建,每天都在更新,每天都在研发。

客户专用的知识图谱,我们一般花1-2个月的时间,用客户内部的数据,结合我们的算法模型去构建,最后把两部分叠加在一起。

爱分析:整个知识图谱的建立过程,现在可以完全用机器来做,还是有一定的人力参与?

陈运文:首先要看基础数据是什么,如果都是很简单的结构化数据,不用NLP也能自动建成知识图谱,但往往面临的具体问题是,数据不好那么干净,这时候就可以通过NLP等技术来构建知识图谱。

但是还有一个准确率的问题,就是建出来的知识图谱可能还是有噪音,或者还有识别错误的东西,这时候就需要人工来纠正。

爱分析:人力在其中主要做哪些事情?

陈运文:主要是标注样本,和对训练结果进行纠错,纠错结果反馈到系统中去,让系统自己来训练。

爱分析:这部分人力投入是需要数据科学家,还是说对人力要求不高?

陈运文:这就看行业知识图谱需要什么样技能的人能够画出来,比如说金融投资、会计准则或法律准则,可能一般人就不懂,就需要专业人士;如果说是比较简单的人名、地名,基本上经过培训后的普通人都可以,最终还是看知识图谱的领域是什么样的领域。

定位通用性NLP技术平台

爱分析:达观在选择进入的行业时,会考虑哪些因素?

陈运文:对我们而言,行业差别不大,但客户的IT化、信息化水平会影响数据获取、清洗的难度,这样我们分析就相对好一些。

爱分析:也有一些企业在用NLP和知识图谱技术服务金融行业,达观与他们的区别在哪里?

陈运文:我们做的更通用,我们并没有把业务聚焦在某一个特定领域的文本上,比如说金融行业,我们既做债券,也做信托文本的挖掘,还做保险、证券的,这些都是金融的分支领域。除了金融,法律、传媒、科技行业等我们都服务。

可以类比图像领域,商汤、旷世做的是图像领域的平台,不管是人脸,步态,还是车牌,都可以用商汤的系统去分析。同样的,在文本领域,不管是信托的、债券的、银行的,还是法律合同,都可以用我们的平台去处理。

除了通用性的公司,图像和文本领域都有一些垂直行业做深做专的公司。大家出发点不一样,我们更多是以一个NLP的通用平台的角度去解决问题。

爱分析:去年访达观,当时主要是做精准推荐跟垂直搜索,现在进入企业内部的做文档智能审阅,这是从外部往企业内部走得更深?

陈运文:其实搜索、推荐仍然是文档审阅里面非常重要的模块。企业文档多了,必然要搜索,所以搜索、推荐这两个产品仍然是我们非常重要的项目。只不过搜索也好,推荐也好,要想做好,核心仍然是对文字内容的深度理解。

所以,我们在文字理解的基础之上,衍生出来新的产品功能,它和我们的搜索、推荐是并列的。

爱分析:走到企业内部做文本智能分析,您觉得这个市场有多大?

陈运文:我们去企业访谈调研过,发现中国企业的信息化和自动化水平是在一个非常落后的状态。很多企业进去一看,还是靠大量人力,很多金融机构还是大量员工每天加班看大量的文档,将数字从这个表格复制到那个表格,然后核对来核对去,做一些非常原始的手工工作。

我们觉得,这些工作未来至少有50%都将由计算机代替人来完成。你看中国有多少白领,政府里面有多少公务员,他们每天在做多少和文档处理相关的工作,这个市场未来是属于我们的计算机人工智能系统。

爱分析:政府也会成为达观的目标客群?

陈运文:没错,我们现在正与一家机构商讨合作,另外我们和一些中央政府以及地方政府的部委办局在合作,他们行政审批也要阅读大量材料,要判断通过还是有问题。这些工作耗费大量人力,而且很容易有疏漏,我们现在让计算机完成预审工作,这件事情是非常容易的,我们现在正在试点。

我们面向的客群,就是和文档打交道比较多的工作,政府肯定是其中一大类。

爱分析:除了搜索、推荐、文本审阅,往后业务延伸的方向会有哪些?

陈运文:我从两个角度去看,第一个角度是从行业的角度,像金融、法律行业,明显就是文本特别多,文本集中的行业除了现有服务的行业以外,还有政府和各个大型企业,政府文山会海那全是文本,大型企业集团所有业务的流转都是文本,比如工单,简历,财报,市场文书,用户意见,所有这些大型企业各个部门每天打交道的文本,我们都可以提供自动化的工具,大幅提高他们工作效率。这是从行业、从客户来看。

第二,从我们的产品功能角度来说,其实我们看人在处理文本的时候,常见的动作或者是看一个文本,从中摘录关键信息,或是查找、搜索,或是发现相类似的文档(这是推荐),或是审核。从写到后面的审核,这些人和文档打交道的具体的动作类型,我们让计算机模拟人的一个一个具体动作类型,开发出一套一套的自动化系统,代替人工做。

为客户提高文本产出质量,减少人力成本

爱分析:客户是根据达观能减少的人力成本来付费吗?

陈运文:这个帐应该这么算,我们给客户提供的,很多时候并不是简单地减少人力,算的不是成本的账,算的是能不能提高客户产出的质量。其实能提高产出质量,能不能减员对客户来说并不重要。

举例来说,很多客户对文档资料的数据的可靠性、准确性要求特别高,金融机构里一旦文档出错,损失巨大,很多客户的合同一旦有漏洞,赔偿都是千万元级别。如果计算机系统能够帮助客户发现这些问题,预警问题,对客户来说创造的价值是非常大的。

所以客户算的账不是简单的减少几个人力,而是能不能提高他们产品输出的质量,提高准确性,。因为人处理文档的精度是非常低的,人很容易疲劳,但计算机是7×24小时工作,准确率可以一直保持在非常高的水平,状态很稳定。这些大量的工作计算机做一遍,人做一遍,双保险,这样能帮助很多企业大幅度提高结果的质量。

为什么金融机构愿意付费,是因为金融机构对文档资料产出的准确性要求非常高,所以能够帮客户更好地提高文档结果输出的质量,这是第一位的。

第二位才是能帮客户节约多少人力,我们做过一个比较,平均一个人处理一个文档,即使是一个不长的合同文本,阅读一遍需要半个小时;初步的填表,做一些有复杂逻辑的审核的话,需要2-3个小时。但计算机只需要一秒钟,从原来处理一份合同需要2-3个小时,缩减到一秒钟完成,这能带来非常大的收益,为很多企业大幅度提高运作效率。

爱分析:达观服务的客户,能帮助减少多大的人力成本?

陈运文:我们服务的某个大型金融机构的合同审校,原来团队是800人,我们的系统上线后就缩减到600人。未来他们计划把这个团队缩到100人以内,是逐步逐步缩减。

壁垒建立在技术与行业经验的结合

爱分析:文档智能审阅的技术壁垒在什么方面?

陈运文:需要把计算机的文字理解能力,和行业的know-how,行业的经验有机结合到一起,才能够像行业专家一样去自动化地处理分析文本。

这个壁垒是在服务客户的过程中与客户一起成长,有很多的行业知识、数据,也是客户在和我们合作过程当中,源源不断地提供给我们,我们把它凝结成计算机的代码,变成可用的系统。

爱分析:技术开源是趋势,纯技术层面能建立起壁垒吗?

陈运文:NLP要做好特别不容易,在这个领域要做的工作非常多,即使是底层技术,我觉得到今天为止还不够成熟。只有底层技术还不够,还需要有应用层的技术,要让这个系统适应特定领域的文本的处理能力,再加上专家级的知识结构,需要结合在一起才行,从底层到上面应用的跨越非常大,要做的工作很多。

爱分析:NLP底层技术的难点在哪些方面?

陈运文:难点是两个,第一个是文字特别抽象,可能短短几个字,蕴藏了非常丰富的概念和含义。让计算机解读出文字的这些概念,本身是一个很难的事情,它是从一个抽象的概念放大成一个具象的内容。和图像处理不一样,图像本身就是具象,可能有数亿个像素点,要从里面抽取出概念性的东西;但是文字反过来。越抽象,越概括,计算机处理的时候就越难。

第二是文字非常灵活。表达一个意思,可以有很多种方法,怎样让计算机能够处理这种非常灵活的表达方式,这个其实有很大的问题。

现在一个通用的文本的阅读理解,我觉得还没有做得很好。达观今天做的是一些专用领域的文本,尤其是书面文本。书面文本比口语文本要相对容易处理,因为比较规范,有一定的格式。所以我们现在更多是在特定领域的书面文本,用计算机自动去处理。在做了这样的限制以后,它的准确率可以基本接近人的水平。

直销获客为主,加大与代理商和集成商的合作

爱分析:获客现在主要是直销吗?是否会找代理或集成商?

陈运文:我们早期是直销,现在随着企业规模逐步扩大,现在也积极地和一些上下游的渠道合作伙伴共同发展,也发展得非常不错。我们觉得这个产业非常广阔,不光靠我们自己,也需要团结更多的合作伙伴力量,共同把市场做大。

集成商也会考虑,我们聚焦做和文本相关的智能化系统。很多大型企业除了文本以外,还有很多其他的ERP等服务商,包括软硬件、网络、安全等等,我们是愿意作为集成商的功能的一部分,和他们的产品打包在一起去服务客户的。

爱分析:如果是找代理,后端的服务是达观做吗?

陈运文:是,我们还是一个技术特别密集的产品,即使是找代理,我们也会自己去做后续的维保服务,因为它是一个技术含量比较高的系统,合作伙伴可能做不来,他们可能做一些简单的基础性的维护工作,复杂一点的算法调优、升级等等功能还是要我们来分担。

爱分析:达观做的是信息化、智能化的工作,律所可能没有IT部门,这类客户是直销获客,还是通过代理或集成商?

陈运文:我们的合作虽然需要IT部门配合,但更多的是由业务部门和我们对接,确定需求,验证功能。所以客户没有IT部门也没关系,我们可以帮他分担一些需要IT来配合的工作。

爱分析:现在团队规模有多大?

陈运文:不到200人,预计到年底会翻番,研发人员占比六成。