人工智能

竹间智能简仁贤:打造通用化知识工程平台,助力企业知识图谱规模化应用 | 爱分析访谈

知识图谱如何规模化应用?

2021年04月19日
调研 | 黄勇 莫业林 撰写 | 莫业林
  • 人工智能

 

当前知识图谱构建工作主要依赖人工进行,同时知识图谱构建高度依赖专家知识输入,导致知识图谱产品普遍通用性较差,阻碍了知识图谱技术的规模化落地。同时企业海量的数据和文档都无法实现应用价值。竹间智能的知识工程平台Gemini,可实现知识图谱及知识库全自动构建,用户只需进行简单的模型配置,通过调用底层NLP平台的NLP基础模块能力和AutoML等技术组件,就能够快速构建适合自身业务的应用。

当前,知识图谱技术已被越来越多行业采纳,用于数据检索、推荐引擎和知识发现等应用场景。比如,在医疗行业,基于知识图谱技术提供的关联病例分析,医生可发现常规情况下难以发现的病症;在公安领域,基于知识图谱提供的多重关系关联查询和隐形关系分析,执法人员可快速锁定嫌疑犯。

知识图谱作为一种整合数据和数据治理的有效工具,成为了企业推进布局AI应用部署的重要技术手段之一。Gartner于2020年初针对600多家全球企业的调查显示,23%的受访者表示已经在AI项目中采纳知识图谱技术,另外31%表示未来12个月内计划采纳。

不过,当前知识图谱技术的落地也面临诸多挑战,主要包括以下两方面。

首先,知识图谱构建工作仍主要依赖人工进行,包括数据收集、数据清洗、数据比对到最后图谱构建等整个流程,自动化程度低,导致知识图谱技术开发效率低下。

其次,由于知识图谱构建工作仍然高度依赖专家的知识输入,目前市面上知识图谱产品普遍具备较强的行业属性,产品通用性差,阻碍了技术规模化应用。

为了应对以上问题和挑战,不少厂商开始从知识图谱构建技术本身和产品开发两个层面入手,探索相应的解决方案。

竹间智能是一家以NLP技术为核心的软件和服务公司,由前微软(亚洲)互联网工程院副院长简仁贤于2015年创办,公司目前形成了兼具短文本和长文本NLP能力的产品体系。其中,长文本产品主要包括知识工程平台Gemini,该平台为企业提供知识构建的一体化和通用化工具平台,帮助企业解决数据和知识从生产到应用的全流程难题;短文本产品主要包括Bot Factory™对话式AI平台和AICC+(AI Contact & Collaborate),主要应用方向为企业助手和企业客户服务中心等相关场景。

近日,竹间智能宣布完成1亿元人民币C+轮战略融资。本轮由申能诚毅、广发信德、朗玛峰资本合投,老股东中华开发金控再次追投。竹间智能6个月内累计完成融资3亿元人民币。

Gemini是竹间智能推出的知识工程平台产品,基于该平台,用户可自行构建知识图谱可自动构建知识图谱,行业知识图谱,进行知识管理,及知识搜索,大大的缩短了业务流程中需 要人工处理文本的时间,解决企业数据应用难题。通过调用竹间底层NLP平台的NLP模块能力和AutoML等技术组件,用户只需进行简单的模型配置,就能够快速搭建适合自身业务的应用。

基于底层竹间自研的NLP自然语言处理技术,竹间形成了Gemini (Knowledge Factory) 知识工程平台,Bot Factory™对话式AI平台、 AICC+(AI Contact & Collaborate) 解决方案平台、NLP自然语言理解平台、Scorpio自动化机器学习平台,以及WFEA流程自动化引擎六大平台。目前竹间智能已积累了较强的NLP技术能力,开发了27个NLP模块都已经集成在NLP平台上,包括事件抽取、智能分词和句法分析等。

图1:竹间智能六大核心平台

图片

如图所示,NLP自然语言理解平台为所有平台提供基础的NLP能力,同时Gemini与Bot Factory™和AICC+之间可以相互关联,保证数据和知识的一致性。基于业务场景应用和机器自学习能力会反哺至底层NLP自然语言平台进行模型地更新训练,进一步丰富NLP模块的完善,形成良好的闭环。

Gemini助力企业自动构建知识图谱和行业应用

Gemini主要包括知识图谱构建(KG)和知识管理(KM)两部分,其中知识图谱由可配置化平台和认知处理两部分组成。竹间智能于今年推出Gemini Studio功能模块,这是一个低代码/零代码的流程可视化设计工具,用户通过拖拉拽的方式就可完成知识图谱构建。

以在一个文档中抽取某个知识点的应用场景为例,基于Gemini,构建知识图谱并搭建上层应用将大致经历以下过程:用户将相关文档上传至知识管理平台;知识管理平台对文档进行知识采编和权限设置;Studio组件实现知识图谱的自动化构建;最后,通过知识管理门户的各类功能模块(如智能搜索)进行知识调取和应用。

图2:基于Gemini构建知识图谱和搭建上层应用流程

总的来说, Gemini平台的优势体现在以下两个方面。

首先,Gemini是一个自动化知识构建平台,能够利用NLP技术,实现自动对非结构化和半结构化数据的处理和知识挖掘,涵盖从知识表示、实体对齐、实体关联到图谱生成等知识图谱和知识库构建的全过程,大大提升企业数据及知识产生到应用的整体效率。

其次,Gemini产品具备良好的易用性。竹间智能提供的是具有普适性的通用工具产品,Studio允许业务人员基于自身业务需要,自动构建知识图谱业务应用。如在文档抽取的场景下,不同行业业务人员,可自行进行问题定义,提前进行设置。

应用场景方面,基于Gemini平台,企业可构建适合自身业务需要的知识库和知识图谱,并在此基础上实现全企业级别的知识管理,解决需要人工进行文本处理方面的难题,应用场景包括文本查重,如阴阳合同查重和项目申请书查重;文本审核,如简历筛查等。

以竹间智能与某大型石油国有企业客户合作的文本抽取和查重项目为例。该企业此前主要依赖人工进行报告查重,对专业技术要求较高,造成人工查询效率低下和漏查比例大等问题。

基于这一需求,竹间智能给该企业部署了基于Gemini平台的的解决方案。首先对2800份历史项目文档做了非结构化到结构化的信息提取,随后构建了基于语义特征的查重分析服务,嵌入到客户的科技系统中。该系统可实现细颗粒度的查重报告,清晰指出重复指标,从语义层面高亮对比结果。 

效果层面,该企业实现了用机器代替人力进行文档查重,解决了审漏、审错等问题,最终实现了查重效率提升500%,流程自动化效率提升50%,信息搜索效率提升80%,并同时带来了运营效率的提升,整体每年人力成本节省200万元。

近期,爱分析对竹间智能创始人&CEO简仁贤进行了访谈,就竹间智能在知识图谱领域的产品布局、服务客户情况以及未来战略等方面进行了深入交流,现将部分内容分享如下。 

爱分析:目前国内知识图谱应用现状如何?

简仁贤:过去,知识图谱领域的公司,都把精力放在构建知识图谱本身,如医疗图谱、金融图谱、制造业图谱等。知识图谱的构建往往十分依赖人力,需要利用人工进行数据监督、数据清洗、数据收集、知识变化发展和知识迭代等工作。

利用人力构建图谱对数据应用构成了多个方面的限制。首先,知识图谱构建工作本身受到极大限制,比如实体和实体间有多维属性和多重关系,靠人工一般无法涵盖多维度属性;其次,需要专业的人来构建图谱,非专业人无法做到垂直图谱,比如做医疗图谱,需要找到跟医学有关科系的专业人员进行构建。

因为这些限制,当下很多厂商的图谱产品无法给行业带来广泛的实际应用价值。

爱分析:如何解决这些问题?

简仁贤:自然语言理解(NLP)技术能够解决以上问题。NLP能够处理非结构化、半结构以及多来源的数据。NLP能够像专家一样阅读非结构化数据,利用这一技术能够在实体对齐、实体关联、三元组构建等知识图谱构建的全过程中,实现全自动化。

不过,构建出来的三元组(关系、属性和实体)能不能有效被用到知识推理关系预测、因果推测、风险控制、信息洞察和不正常事件的发现,与底层工程很有关系。底层工程能力体现在,基于NLP的自动构建能力加上新的模型,可以基于同样的数据快速创造不同的知识图谱。

爱分析:能否介绍一下Gemini平台?

简仁贤:Gemini是竹间智能的知识工程平台,自动化将非结构化数据做知识获取、知识挖掘,在本体、实体和关系的知识图谱构建的基础上,再做具体应用。竹间智能的知识工程兼具非监督学习和半监督学习特性。

半监督学习的情况下,需要人定义好如何进行解析和抽取。竹间智能即将于四月份发布Gemini Studio。这是一个可视化低代码/零代码流程和设计的平台,可以让业务人员能够根据自身业务进行自定义、构建知识图谱,进行定制化实现知识抽取。

非监督学习的情景下,基于Gemini生成的模型会跟其他模型(如新进来模型)进行自动比对,根据需要进行自动更正和自动迭代。

爱分析:从产品组合来看,Gemini 包括哪些模块?

简仁贤:Gemini分为两部分——知识工程和知识管理。知识工程分两块,第一是Gemini Studio,这是设计和配置模块,支持通过拖拉拽可视化的方式进行知识图谱构建; 另一块是执行相关的模块,包括知识解析、知识抽取和知识推理等。

知识管理是所有知识文档的第一个过程。知识获取假设是一个文档,企业会先将该文档上传至知识管理系统中,之后系统会进行权限设置和知识采编等工作,随后该文档将被上传到知识库中。这样一来,该文档的内容将可以在门户网站中搜索到。

另一种情况下,文档在上传并经过采编后,可经过Gemini的知识构建流程,构建知识图谱,因此在知识管理的门户也可以看到知识图谱。

竹间智能提供的知识管理系统不仅能够实现基于关键字的搜索,还能够实现基于语义/半语义的搜索,比如解答 “如果空调有杂音,该采取何种措施进行处理”这类开放性问题。

爱分析:Gemini的应用场景包括哪些?

简仁贤:基于Gemini的应用有很多,按照根据客户场景需求的不同,可以分为六大类。第一,知识抽取,比如在1万篇文档中,抽取一些东西出来;第二是文本查重,包括合同查重、项目申请书查重等,文本查重具体可以分为关键字、语义和情绪的查重等;

第三是文本比对,比如找出两篇文档中不一样的地方,还能看到不一样的程度(比如80%、90%不一样等);第四类是文本分类;第五类是文本审核;第六类是实时舆情分析和实时预警等。

爱分析:对Gemini产品有需求的企业集中在哪些行业?

简仁贤:第一类是电子和快消品行业,电子行业里包括电器、打印机、无人飞机、扫地机、手机制造商等,这类企业里面有大量生产和维修相关的文档;而对快消行业企业,可以利用Gemini进行舆情分析,如结合自身数据和外界数据进行融合分析等。

第二类是金融业,包括证券业、银行业和保险业等。证券业方面,如证券交易所可以利用Gemini进行招股书和上市文本阅读;银行业方面,可以利用Gemini辅助风控业务,如通过Gemini的文本阅读功能可发现一些可疑情况等。银行还可以利用Gemini自动生成反洗钱报告;保险业方面,可以利用Gemini进行文本分析,辅助核保业务。

第三类是政企行业,包括国企行业企业和政府部门,这些行业企业和机构有大量文本需要处理,通过Gemini平台,可以达到80%的自动化。这方面,竹间智能的客户包括中海油和新华社等。

第四类是to B 制造业企业,这类客户利用Gemini可实现的功能包括,如通过对制造文档进行分析,找出在制造过程中最容易出现故障的零部件,并分析出现故障的原因。

其他对Gemini有需求的行业包括物流行业、服装行业和食品行业等,总的来说各行各业都离不开知识的应用。

爱分析:具体到服务客户的过程中,竹间智能是仅提供平台(客户基于平台进行应用开发)还是同时提供平台和上层应用部署?这一过程中,在涉及不同行业业务场景时,是否需要竹间智能具备行业经验和专家知识理解的过程?

简仁贤:竹间提供的自动构建平台,也即从数据获取、数据清洗到知识图谱构建的整个过程,都已经平台化和工具化的了。重要的是,在专业领域知识,要加入业务理解的部分,通常客户都会提供这方面的输入。基于竹间智能完整的平台,客户的业务人员很容易把业务知识放进来。

因为使用竹间智能Gemini平台的客户基本都是业务部门主导,业务部门主导的人都是跟业务紧密相关。比如上文提到的竹间智能的某大型石油国有企业客户,需要通过Gemini产品快速建立一套科技管理智能信息处理及查重服务,而使用系统的就是整个科研部门,服务的就是其审核人员,审核人员会把业务结合到Gemini中。

因此,像竹间智能这样,有自己完整平台工具,客户只需要用Studio进行应用构建就可以,加上竹间智能自身具备的需求梳理能力,可以快速上线业务应用。具备完整的通用化平台,也使得竹间的产品可以做到跨行业应用。

爱分析:Gemini产品如何进行收费?

简仁贤:Gemini主要是通过PaaS私有化方式进行部署。竹间智能能够做到快速部署,单机部署一个Gemini只需要20分钟。

知识图谱项目一般都牵涉到大量用户数据,因为隐私方面的问题,不适合做SaaS,一方面客户不愿意将产品文档放到云上面,另一方面包括竹间智能在内的厂商也不会触碰这些数据。

不过,针对非保密性数据,竹间智能也提供少量的订阅制云服务,这种情况下,一般是按件进行收费。

爱分析:从客户需求看,包括技术和产品两个层面,Gemini下一步迭代方向是?

简仁贤:目前竹间智能已做到:整合数据,将数据变成知识,知识变成应用。下一步,竹间智能将致力于将知识进行融合,尝试做思考能力。思考能力指的是,不依赖人,就能发现一些规律,比如给定一个目标,机器可以产生超出原先预期的结论;基于大量数据,发现一些异常的东西等。

要实现从知识向思考的突破,需要在算法模型和NLP方面(尤其文字生成)进行突破。

爱分析:从短文本和长文本的角度划分,竹间智能未来几年的规划如何?

简仁贤:竹间智能是短文本起家,第二步做长文本,刚创业的时候,竹间智能就规划好三年后做长文本。短文本是企业的入口,长文本是企业的业务核心。去年,AICC+和Bot Factory™ 的占据竹间智能80%的营收。不过从去年到现在,竹间智能加大对Gemini产品推广,对该产品的需求也出现很大增长。

2021年,竹间智能将坚持AICC+和Bot Factory™ 加上Gemini的发展路线。不过,Gemini未来将成为公司发展的主轴,预估到明年,Gemini和AICC + Bot Factory™ 将各占公司营收的一半。未来三年,Gemini占比甚至可能更高,因为这一产品的客单价更高。

爱分析:从行业角度看,未来NLP技术本身将如何迭代,对应到商业化应用价值层面会有哪些变化?

简仁贤:未来NLP的变化在于,对语言的理解程度更高,将达到持续性循环学习的技术,这也是竹间智能未来要实现的目标。竹间智能希望,未来的NLP技术可以做到零训练。目前竹间智能已经能够做到预训练模型,需要的训练语料比以往减少了80%。在零训练的基础上,配合思考能力,将能够发展出具备自然语言生成能力的机器人。

当前,很多人工智能产品,仍然需要客户投入大量人力进行运营,运用工作包括数据标注、数据采集和语料训练等。未来,竹间智能将推出低人力运营的AI,让用户在享用AI产品的利好同时,不需要用额外的人力进行维护,这样也可以降低企业的整体人力成本。