原时趣首席科学家带领,智慧图谱利用知识图谱打造BI系统

用图读懂数据

2018年09月22日
  • 知识图谱

调研 | 李喆 崔可家

撰写 | 崔可家

数据分析一直是企业中所重视的问题,从单纯的数据可视化到BI报表,数据的价值在不断被挖掘,但不论是可视化工具还是BI,其所呈现的结果都是人为预先设想的,这就不可避免的带来关键因素遗漏的可能性,并且随着数据的多样性增加,非结构化的文本数据逐渐增多,传统的数据分析工具也不能很好的支持。

2017年,由原时趣互动首席科学家王绪刚成立的智慧图谱,推出了IGraph知识发现平台,挖掘数据内在知识,旨在利用知识图谱技术解决企业内部决策问题。

建立知识图谱,深挖数据价值

数据层面,IGraph会接入企业内部数据,包括销售数据、SKU信息,客服数据等等,并且会根据企业需求从互联网爬取外部数据作为补充。这些数据中既包括结构化数据,也包括非结构化的文本数据,因此如何把异构数据融合成知识图谱,并挖发现企业决策所需要的科学建议,是IGraph平台中最关键的环节。

知识图谱的构建一般分为Top-down和Bottom-up两种方式,在IGraph中企业构建知识图谱是采用的Top-down的方式,即在抽取实体关系之前,通过厂商的SKU信息等结构化数据,先构建图谱Schema,即确定实体、关系规则。之后,利用NLP技术,根据Schema从各类数据中抽取出实体、关系,完成知识图谱的构建。

知识图谱的构建不是最终目的,如何利用知识图谱进行预测分析并解决问题才是关键。因此,IGraph内置了多种图挖掘模型(影响力计算模型、相关性模型等),将数据之间的关系更加深入的呈现给使用者。

为了方便客户使用,IGraph提供了可视化的交互页面,因此使用者不再局限于IT人员,业务人员也可以利用图形化界面完成数据分析,从知识图谱的任意节点出发,进行相关性分析。

区别BI产品,主打探索式分析

IGrahph虽然定位基于知识图谱的BI系统,但是其与传统BI还是有很大不同。

首先,在接入的数据类型和数据处理方式上,传统BI主要以结构化数据为主,并通过建立数仓的方式将数据汇集,这就限制了可用数据的总量,并且增大了实施成本;而IGraph可以利用更多的文本数据,挖掘更大的价值,同时,IGraph平台底层是自研的图计算引擎,可以存储提取出的实体、关系数据,省去了建立数仓的过程。

其次,在产品使用逻辑上,IGraph会更加接近于人思考的方式,可以从图谱中任意节点进行知识的探索,平台会自动给出与该节点相关的信息供使用者参考,而不是传统BI产品中按照预先设定好的路线进行分析,这样节省了分析所需的时间,并且维度更加全面。

最后,在系统智能性上,IGraph中包含了图挖掘模型以及深度学习模型,并且在使用过程中,支持纠错、标注等交互动作,可以不断优化模型,沉淀在平台之上,使后续的分析过程更加智能。

聚焦行业,未来提升相关性分析能力

由于知识图谱的构建带有强烈的行业色彩,因此智慧图谱没有选择从通用平台工具切入市场,而是选择了产品加解决方案的模式。通过在每个行业中预先建立好的知识图谱以及本体库,企业只需要按照自身需求调整、构建Schema即可,大幅缩短了企业部署时间。

目前,智慧图谱的主要客户集中在家电、手机、旅游以及服装行业,之所以切入这些行业,主要是由于这些行业对于企业内部的产品设计、服务流程优化的需求非常迫切。

客户可以通过IGraph建立行业知识图谱,并引入消费者评论,发现市场中对于自身产品以及服务的正负面关注点,为之后的产品、服务优化提供支持。同时,IGraph提供的第三方数据还支持对于竞品的分析、监控,帮助客户掌握市场动态。

未来,IGraph会不断增加平台内的关联因素(价格、库存、物流等信息),为企业提供更加智能的相关性分析。


近期,爱分析对智慧图谱的创始人&CEO王绪刚进行了访谈,就智慧图谱的产品、运营以及知识图谱行业的情况进行了深入探讨,现将部分精彩内容分享。

构建行业图谱规则,自研图计算引擎支持实时分析

爱分析:IGraph的研发历程是怎样的?

王绪刚:产品研发周期在2个月左右,速度比较快,第一个原因是对于产品的最终目标有比较清晰的认识;第二个原因是团队从时趣互动出来,已经磨合多年;第三个原因是对于知识图谱的开发经验比较丰富。

爱分析:产品定位是怎样的?

王绪刚:广义上来讲,定位在基于知识图谱的BI系统,利用知识图谱,提高知识获取效率,成为一款可挖掘、可推理的BI系统。而它的使用者,是一线业务人员,而非传统BI的IT和分析使用者。

爱分析:IGraph中会利用哪些数据?

王绪刚:第一方和第三方数据都有,第一方数据包括企业内部的销售数据、SKU信息、营销活动数据、客服数据等,第三方数据是外部互联网数据。

爱分析:是否支持结构化数据?

王绪刚:是支持的,知识图谱并不区分文本还是结构化数据,主要还是强调关系。

爱分析:如果是利用传统数据库中的结构化数据,是否支持自动关系抽取?

王绪刚:自动化关系抽取是通过图的挖掘算法,例如:随机游走来实现。

爱分析:IGraph的主要应用场景有哪些?

王绪刚:应用场景有一些共性特征,一方面是业务知识复杂,另一方面是跨部门协作的场景。比如从客服数据里面去做消费者的需求和痛点分析。

爱分析:知识图谱的构建是否需要行业知识?

王绪刚:一定是需要的,IGraph是一款给非IT人员使用的IT工具,产品中有一个模块叫做知识管理,是用来给IT人员和业务人员一起构建知识图谱Schema的模块。

爱分析:知识图谱Schema是客户自己定义的?

王绪刚:是的,比如说汽车行业,我们会把知识规范发给客户,客户会按照这个结构梳理SKU信息,构建Schema,这只是一个显性的知识图谱结构,后台算法会根据这个显性的结构,利用NLP技术和图挖掘算法构件隐性的知识图谱结构,比如说,某客服对话中出现的多个本体及其它们的关系;知识点之间的相关度;看似没有关系的两知识点之间的关系强弱。

爱分析:IGraph中知识图谱Schema的构建是行业通用的吗?

王绪刚:是的,一个行业构建一个Schema,每个客户可以根据自身的需求来修改。

爱分析:IGraph与Tableau等敏捷BI产品的区别是什么?

王绪刚:第一,敏捷BI还是更多的应用在数据可视化上,并且是需要建立数仓,但是IGraph是不需要建立数仓进行分析的,将知识从原始数据中抽取出来之后,会存储在我们自研的底层图计算引擎中。

第二,IGraph不是根据结构化数据去拼装可视化图表,而是从问题点出发找关联,因此非常适合做决策支持。

爱分析:底层没有采用市面上开源图数据库的原因?

王绪刚:因为IGraph需要做实时性分析,市面上的开源图数据库计算反馈时间不能达到我们的要求。

产品加解决方案,解决跨部门决策问题

爱分析:IGraph定位是全行业通用产品?

王绪刚:我们通过构建行业知识图谱的方式,来解决某行业客户的问题,IGraph平台本身是一个容器,目前我们已经针对汽车、家电、3c、美妆、旅游等行业完成了行业知识图谱的积累,并持续深入到这些行业的生产流程的知识图谱中。

爱分析:选择这些行业的原因是什么?

王绪刚:这些行业的生产流程是相对标准化的,并且大部分外部销售渠道已经被互联网公司垄断,对于内部的产品设计以及服务流程优化有很大的需求。

爱分析:主要面向客户的哪些部门?

王绪刚:客服部门、市场部门还有战略部门等。

爱分析:主要获客方式是什么?

王绪刚:现在公司刚刚成立,还是以直销为主,因为本身产品还是比较创新的,还需要一段时间的市场教育。

爱分析:IGraph的部署方式是怎样的?

王绪刚:SaaS加本地化部署的方式,因为有些客户的销售数据不希望上公有云,因此会有本地化部署的方式。

爱分析:收费方式是怎样的?

王绪刚:按照套餐收费,主要根据套餐中的账号数量以及数据量。

爱分析:IGraph下一步会向哪个方向发展?

王绪刚:会把关联性分析做的更深,能达到预测和行动的指导意义,即在分析中关联更多的因素,包括价格、库存、口碑、物流等。

爱分析:从数据分析产品的切入方式来看,BI主要从IT角度切入,而IGraph主要从业务角度切入,您认为这两种方式哪种更好?

王绪刚:没有更好,从价值方面来考虑,从业务出发最好,因为业务部门的需求最强烈、最迫切;但从实施角度来考虑,从IT出发会更容易。

爱分析:客户采用IGraph产品有哪些知识沉淀?

王绪刚:第一,构建知识图谱的体系知识;第二,数据之间的关联性,是强相关还是弱相关;第三,数据分析的路径,常见的输入输出都会沉淀在平台上。

爱分析:NLP和知识图谱的关系是什么?

王绪刚:NLP是知识图谱构建的一个预处理环节,NLP从文本中提取实体、关系,但之后在语义理解的时候,也会用到知识图谱。

爱分析:您认为在NLP/知识图谱领域,技术还会成为一个竞争壁垒吗?

王绪刚:在短期内,技术和工程化能力仍然会构成壁垒,但是长期来看,技术只是公司能否发展起来的因素之一,行业知识图谱的积累、商业模式都会影响公司的发展。

爱分析:怎样理解公司的工程化能力?

王绪刚:我的理解,就是用最合适的方法应用在最合适的场景中,主要是看能否总结出方法论。我们现在做的就是跨部门的决策链问题,这个问题适合用知识图谱技术去解决,这就是我们的方法论。

爱分析:智慧图谱的团队规模是怎样的?

王绪刚:大概有20人左右,研发在80-90%,现阶段不会考虑扩张团队,主要以产品优化工作为主。