AI将渗透50%文本处理工作，达观数据打造通用性跨行业NLP平台-爱分析

在图像识别、语音识别等AI技术成熟应用到各行各业中之后，NLP（自然语言处理）被认为是下一个成熟的AI技术。

最近两三年，涌现出诸多创新公司，运用NLP及基于NLP的知识图谱技术于各个行业，改进实际业务流程，提高业务质量，辅助人甚至是减少对人力的依赖。

爱分析过往访谈的公司中，有应用于客服领域的小i机器人，有应用于反欺诈和贷后催收领域的拍拍贷，也有用于小学初中数学和英语辅导的论答。可以看到，NLP和知识图谱在客服、金融和教育等领域都在逐步渗透。

与上述专注于特定行业某个垂直场景的公司不同，2015年成立的达观数据，是一家服务跨行业的通用性NLP技术提供商。

迄今为止，达观累计服务数百家客户，包括华为、平安、浦发、国家知识产权局等各类型企业，据创始人陈运文透露，2017年已实现盈亏平衡。

数据不是壁垒，文本智能分析与行业经验需有机结合

达观为服务客户而构建的知识图谱，可分成两个阶段：第一阶段是构造某个行业专用的知识图谱，比如金融行业，采集该行业公开的大量术语、资料，让机器阅读、训练，形成行业专用的知识图谱。

第二阶段是针对客户的具体应用场景，对行业知识图谱进一步加工，比如针对证券公司在上市招股书这一场景，通过NLP技术对知识进行获取、形式化，最后表达为属于客户的知识图谱。

第一阶段的行业知识图谱，达观日常在不断地完善，每天都在研发；第二阶段客户适用的专属知识图谱，通常在1-2个月时间内完成搭建。两个阶段都完成，方构建起一个能服务于客户、具备应用价值的知识图谱。

知识图谱的搭建，是人机结合的过程。其中，人力主要发挥作用的地方是数据标注和纠错，根据行业和具体场景的不同，对人力的要求也不一样：知识门槛越高、专业性越强的场景，对人员的要求也越高。

达观构建知识图谱所需的数据，主要是各行业公开的文本数据和客户内部数据，自身并没有独特数据源，因此数据源并非是达观的竞争壁垒。

但精标注后的数据是达观的竞争壁垒。虽然数据来自公开渠道或由客户提供，但这些数据都是“生语料”，将“生语料”深加工为“熟语料”的数据处理过程，依赖于达观对行业经验的积累。

行业专业知识主要是在服务客户的过程中积累，因此，达观累计服务数百家客户的经验，凝结成一行行代码，不断完善优化服务客户的产品。

从搜索、推荐到文本智能分析，未来为大企业搭建NLP平台

基于NLP技术和所构建的各行业知识图谱，达观为客户提供围绕文本处理诸多环节的产品和行业解决方案。

处理文本的场景，包括写作、阅读、查找、归档管理、纠错、复核等等环节。达观最早切入的环节是阅读和查找，为互联网媒体、财经资讯网站和银行机构的手机银行APP提供个性化推荐和垂直搜索服务。

在服务过程中，达观根据客户提出的新需求，开发和推出新的产品。过去一年，达观开始服务企业内部管理，比如合同审阅、文档纠错、工单管理、客户意见分析和人岗匹配等。

对企业而言，机器可以帮助降低出错率、提高文档产出质量和文档处理效率，在某些简单环节甚至可以取代人力。以达观服务的某知名保险公司为例，达观帮助其合同审核团队从800人降低到600人，而且双方期望最终能减少到100人。

进入企业内部，让达观更加深入行业，对客户的业务场景也理解更深。陈运文表示，为企业客户打造一个一个产品之后，未来将为大企业搭建NLP平台，支撑企业内所有部门对文本处理的需求，这也符合企业统一管理的诉求。从底层平台到上层的应用解决方案，达观将构建起更高的竞争壁垒。

客户从互联网企业到传统大型企业，LTV提高

最早的搜索、推荐产品，主要服务的是互联网企业，付费能力不高，但对新技术接受度比较高，而且互联网企业具备很好的信息化基础。

除了产品不断丰富，达观目前也从服务互联网公司转向大型企业客户，比如运营商、中海油和银行、保险、基金等金融机构。大客户付费能力强，客户LTV更高，但小客户需求可能代表着技术发展方向，因此达观现阶段二者都服务，不会偏废。

与客户变化相伴而来的，是交付形式的变化和服务的加重。之前服务互联网客户更多是以API接口形式，而服务大客户则需要私有化部署，收取项目建设费和后续维保费用。

2018年，达观在北京、成都、西安等地新设办事处，既是为了开拓更广阔市场，也是贴近客户、提供更及时服务的需要。

达观数据的客户数在过去一年实现了快速增长，陈运文认为，整个市场刚开始起步，但需求是旺盛的，达观今年也将加速扩张抢占市场份额，预计到年底团队规模会在现有基础上翻番。

现阶段，达观更多是通过直销获客，今年也开始寻找更多合适的合作伙伴，包括代理商和集成商，共同去拓展商业机会。但即使是通过代理商获取的客户，后续的服务仍将由达观提供。由此可见，文本智能处理是个重服务的行业，为了保证客户口碑，必须以做重的方式服务客户。

文本密集之处，即有达观的客户

陈运文认为，机器对通用领域的文本的理解，现阶段还不够成熟，比如日常对话、口语文本的理解，因此达观做的是专用领域的文本，尤其是书面文本的智能处理。

由于中文的抽象和灵活性、复杂度，达观未来仍将加大对研发和技术的投入，目前不到200人的团队规模里，技术人员占六成。

在继续加大研发投入，推动技术进一步发展，产品优化迭代的同时，达观将拓展更多的行业。在陈运文看来，只要是文本密集的地方，就有成为达观客户的机会。

现有已覆盖的金融、法律等行业，就是文本密集行业，而以文山会海著称的体制内单位，包括各级政府、委办局和各类协会、监管机构，也将是达观未来拓展的方向。

近期，爱分析专访达观数据创始人陈运文，就NLP和知识图谱的行业趋势、公司战略进行了深度交流，分享如下。

人机结合，共同构建知识图谱

爱分析：NLP与知识图谱的关系是怎样的？

陈运文：知识图谱是NLP的一项技术，如果把NLP画成一个大圈，知识图谱是里面的小圈，在NLP领域，知识图谱帮助计算机加深对文字理解的深度。

爱分析：不用知识图谱，NLP也能完成对文字的理解？

陈运文：可以，但理解得不够深。举个例子，这个人长得像西游记里的二师兄，单纯用NLP技术只能理解字面意思，但有了知识图谱，能够理解得更深入，能想到西游记的作者，能想到西游记里有唐僧、孙悟空。让计算机加深对文字的理解，要靠知识图谱。

爱分析：建一个知识图谱大概有哪几步？

陈运文：通常来说，我们构建知识图谱的过程分成两阶段。

第一个阶段，我们要构造一个行业专用的知识图谱，比如说金融行业，法律行业，传媒行业，每个垂直行业都要采集大量术语、信息、资料，这些信息都是网上公开的，让计算机阅读以后，构建起一个专用的知识图谱，这是第一阶段。

第二阶段，针对每一个客户的诉求，把行业知识图谱进一步加工，变成客户自己领域的知识图谱。举例来说，每个客户内部有很多产品说明书、债券说明书、术语库、文档资料，要让计算机把这些资料也完成一个阅读理解，基于这些文档资料把知识点抽取出来，构建起一个属于客户自己的知识图谱。

用行业的通用知识图谱，结合客户专用的知识图谱，就构建起一个真正面向实用的知识图谱，这个系统才是真正有价值，能够给客户提供服务。

爱分析：两个阶段分别需要耗时多长？

陈运文：通用的知识图谱，我们是不断的在构建，每天都在更新，每天都在研发。

客户专用的知识图谱，我们一般花1-2个月的时间，用客户内部的数据，结合我们的算法模型去构建，最后把两部分叠加在一起。

爱分析：整个知识图谱的建立过程，现在可以完全用机器来做，还是有一定的人力参与？

陈运文：首先要看基础数据是什么，如果都是很简单的结构化数据，不用NLP也能自动建成知识图谱，但往往面临的具体问题是，数据不好那么干净，这时候就可以通过NLP等技术来构建知识图谱。

但是还有一个准确率的问题，就是建出来的知识图谱可能还是有噪音，或者还有识别错误的东西，这时候就需要人工来纠正。

爱分析：人力在其中主要做哪些事情？

陈运文：主要是标注样本，和对训练结果进行纠错，纠错结果反馈到系统中去，让系统自己来训练。

爱分析：这部分人力投入是需要数据科学家，还是说对人力要求不高？

陈运文：这就看行业知识图谱需要什么样技能的人能够画出来，比如说金融投资、会计准则或法律准则，可能一般人就不懂，就需要专业人士；如果说是比较简单的人名、地名，基本上经过培训后的普通人都可以，最终还是看知识图谱的领域是什么样的领域。

定位通用性NLP技术平台

爱分析：达观在选择进入的行业时，会考虑哪些因素？

陈运文：对我们而言，行业差别不大，但客户的IT化、信息化水平会影响数据获取、清洗的难度，这样我们分析就相对好一些。

爱分析：也有一些企业在用NLP和知识图谱技术服务金融行业，达观与他们的区别在哪里？

陈运文：我们做的更通用，我们并没有把业务聚焦在某一个特定领域的文本上，比如说金融行业，我们既做债券，也做信托文本的挖掘，还做保险、证券的，这些都是金融的分支领域。除了金融，法律、传媒、科技行业等我们都服务。

可以类比图像领域，商汤、旷世做的是图像领域的平台，不管是人脸，步态，还是车牌，都可以用商汤的系统去分析。同样的，在文本领域，不管是信托的、债券的、银行的，还是法律合同，都可以用我们的平台去处理。

除了通用性的公司，图像和文本领域都有一些垂直行业做深做专的公司。大家出发点不一样，我们更多是以一个NLP的通用平台的角度去解决问题。

爱分析：去年访达观，当时主要是做精准推荐跟垂直搜索，现在进入企业内部的做文档智能审阅，这是从外部往企业内部走得更深？

陈运文：其实搜索、推荐仍然是文档审阅里面非常重要的模块。企业文档多了，必然要搜索，所以搜索、推荐这两个产品仍然是我们非常重要的项目。只不过搜索也好，推荐也好，要想做好，核心仍然是对文字内容的深度理解。

所以，我们在文字理解的基础之上，衍生出来新的产品功能，它和我们的搜索、推荐是并列的。

爱分析：走到企业内部做文本智能分析，您觉得这个市场有多大？

陈运文：我们去企业访谈调研过，发现中国企业的信息化和自动化水平是在一个非常落后的状态。很多企业进去一看，还是靠大量人力，很多金融机构还是大量员工每天加班看大量的文档，将数字从这个表格复制到那个表格，然后核对来核对去，做一些非常原始的手工工作。

我们觉得，这些工作未来至少有50%都将由计算机代替人来完成。你看中国有多少白领，政府里面有多少公务员，他们每天在做多少和文档处理相关的工作，这个市场未来是属于我们的计算机人工智能系统。

爱分析：政府也会成为达观的目标客群？

陈运文：没错，我们现在正与一家机构商讨合作，另外我们和一些中央政府以及地方政府的部委办局在合作，他们行政审批也要阅读大量材料，要判断通过还是有问题。这些工作耗费大量人力，而且很容易有疏漏，我们现在让计算机完成预审工作，这件事情是非常容易的，我们现在正在试点。

我们面向的客群，就是和文档打交道比较多的工作，政府肯定是其中一大类。

爱分析：除了搜索、推荐、文本审阅，往后业务延伸的方向会有哪些？

陈运文：我从两个角度去看，第一个角度是从行业的角度，像金融、法律行业，明显就是文本特别多，文本集中的行业除了现有服务的行业以外，还有政府和各个大型企业，政府文山会海那全是文本，大型企业集团所有业务的流转都是文本，比如工单，简历，财报，市场文书，用户意见，所有这些大型企业各个部门每天打交道的文本，我们都可以提供自动化的工具，大幅提高他们工作效率。这是从行业、从客户来看。

第二，从我们的产品功能角度来说，其实我们看人在处理文本的时候，常见的动作或者是看一个文本，从中摘录关键信息，或是查找、搜索，或是发现相类似的文档（这是推荐），或是审核。从写到后面的审核，这些人和文档打交道的具体的动作类型，我们让计算机模拟人的一个一个具体动作类型，开发出一套一套的自动化系统，代替人工做。

为客户提高文本产出质量，减少人力成本

爱分析：客户是根据达观能减少的人力成本来付费吗？

陈运文：这个帐应该这么算，我们给客户提供的，很多时候并不是简单地减少人力，算的不是成本的账，算的是能不能提高客户产出的质量。其实能提高产出质量，能不能减员对客户来说并不重要。

举例来说，很多客户对文档资料的数据的可靠性、准确性要求特别高，金融机构里一旦文档出错，损失巨大，很多客户的合同一旦有漏洞，赔偿都是千万元级别。如果计算机系统能够帮助客户发现这些问题，预警问题，对客户来说创造的价值是非常大的。

所以客户算的账不是简单的减少几个人力，而是能不能提高他们产品输出的质量，提高准确性，。因为人处理文档的精度是非常低的，人很容易疲劳，但计算机是7×24小时工作，准确率可以一直保持在非常高的水平，状态很稳定。这些大量的工作计算机做一遍，人做一遍，双保险，这样能帮助很多企业大幅度提高结果的质量。

为什么金融机构愿意付费，是因为金融机构对文档资料产出的准确性要求非常高，所以能够帮客户更好地提高文档结果输出的质量，这是第一位的。

第二位才是能帮客户节约多少人力，我们做过一个比较，平均一个人处理一个文档，即使是一个不长的合同文本，阅读一遍需要半个小时；初步的填表，做一些有复杂逻辑的审核的话，需要2-3个小时。但计算机只需要一秒钟，从原来处理一份合同需要2-3个小时，缩减到一秒钟完成，这能带来非常大的收益，为很多企业大幅度提高运作效率。

爱分析：达观服务的客户，能帮助减少多大的人力成本？

陈运文：我们服务的某个大型金融机构的合同审校，原来团队是800人，我们的系统上线后就缩减到600人。未来他们计划把这个团队缩到100人以内，是逐步逐步缩减。

壁垒建立在技术与行业经验的结合

爱分析：文档智能审阅的技术壁垒在什么方面？

陈运文：需要把计算机的文字理解能力，和行业的know-how，行业的经验有机结合到一起，才能够像行业专家一样去自动化地处理分析文本。

这个壁垒是在服务客户的过程中与客户一起成长，有很多的行业知识、数据，也是客户在和我们合作过程当中，源源不断地提供给我们，我们把它凝结成计算机的代码，变成可用的系统。

爱分析：技术开源是趋势，纯技术层面能建立起壁垒吗？

陈运文：NLP要做好特别不容易，在这个领域要做的工作非常多，即使是底层技术，我觉得到今天为止还不够成熟。只有底层技术还不够，还需要有应用层的技术，要让这个系统适应特定领域的文本的处理能力，再加上专家级的知识结构，需要结合在一起才行，从底层到上面应用的跨越非常大，要做的工作很多。

爱分析：NLP底层技术的难点在哪些方面？

陈运文：难点是两个，第一个是文字特别抽象，可能短短几个字，蕴藏了非常丰富的概念和含义。让计算机解读出文字的这些概念，本身是一个很难的事情，它是从一个抽象的概念放大成一个具象的内容。和图像处理不一样，图像本身就是具象，可能有数亿个像素点，要从里面抽取出概念性的东西；但是文字反过来。越抽象，越概括，计算机处理的时候就越难。

第二是文字非常灵活。表达一个意思，可以有很多种方法，怎样让计算机能够处理这种非常灵活的表达方式，这个其实有很大的问题。

现在一个通用的文本的阅读理解，我觉得还没有做得很好。达观今天做的是一些专用领域的文本，尤其是书面文本。书面文本比口语文本要相对容易处理，因为比较规范，有一定的格式。所以我们现在更多是在特定领域的书面文本，用计算机自动去处理。在做了这样的限制以后，它的准确率可以基本接近人的水平。

直销获客为主，加大与代理商和集成商的合作

爱分析：获客现在主要是直销吗？是否会找代理或集成商？

陈运文：我们早期是直销，现在随着企业规模逐步扩大，现在也积极地和一些上下游的渠道合作伙伴共同发展，也发展得非常不错。我们觉得这个产业非常广阔，不光靠我们自己，也需要团结更多的合作伙伴力量，共同把市场做大。

集成商也会考虑，我们聚焦做和文本相关的智能化系统。很多大型企业除了文本以外，还有很多其他的ERP等服务商，包括软硬件、网络、安全等等，我们是愿意作为集成商的功能的一部分，和他们的产品打包在一起去服务客户的。

爱分析：如果是找代理，后端的服务是达观做吗？

陈运文：是，我们还是一个技术特别密集的产品，即使是找代理，我们也会自己去做后续的维保服务，因为它是一个技术含量比较高的系统，合作伙伴可能做不来，他们可能做一些简单的基础性的维护工作，复杂一点的算法调优、升级等等功能还是要我们来分担。

爱分析：达观做的是信息化、智能化的工作，律所可能没有IT部门，这类客户是直销获客，还是通过代理或集成商？

陈运文：我们的合作虽然需要IT部门配合，但更多的是由业务部门和我们对接，确定需求，验证功能。所以客户没有IT部门也没关系，我们可以帮他分担一些需要IT来配合的工作。

爱分析：现在团队规模有多大？

陈运文：不到200人，预计到年底会翻番，研发人员占比六成。