人工智能

知道智慧:行业知识图谱支撑企业决策

知识图谱是认知智能时代的利器

2019年12月27日
  • 人工智能
  • 企业服务

近日,爱分析在京举办了2019爱分析·中国人工智能高峰论坛。爱分析邀请了知道智慧资深大数据与人工智能咨询专家李卫新进行了题为《OneMap:从数据到认知智能——行业知识图谱支撑企业决策》的主题演讲。

李卫新讲解了各行业使用大数据技术遇到的困难,人工智能的发展历程,知识图谱应用过程以及具体落地案例等。

现将李卫新的演讲实录分享如下。

李卫新:各位专家、来宾下午好!今天由我代表北京知道智慧信息技术有限公司,和大家分享一下我们在AI知识图谱方面的实践和体会。

人工智能的发展为挖掘数据价值提供了更好的方法

我们所处的信息化社会,是由结构化、非结构化和半结构化数据构成的。常见的数据由开源数据和组织数据构成。其中开源数据又分为明网数据,深网数据和暗网数据,我们日常可见的通常为明网数据和部分深网数据。

而组织的私有数据通常分为可见的业务数据和不可见数据,以及经过大数据等技术进一步挖掘之后才能获知的更深层次的黑暗数据。这些数据广泛地存在于我们的业务系统和日常生活中。怎么将这些数据进行有效的业务赋能呢?

我们从以下几个方面跟大家做一个分享,首先我们从行业角度看,获取到的数据主要是用于决策分析,预测分析以及解决诸如数据治理等方面的问题。而在政府、企业等内部机构,主要是治理内外部数据的风控问题以及信息安全等相关问题,在公共安全、金融和相关监管部门也有相应的行业问题需要我们进一步利用数据去解决。

那么,这个过程中我们遇到的一个关键的挑战,是如何将一堆没有任何价值或意义的数字符号进行有效的关联,找到他们的相关性和因果性,就是我们常说的五个W(What、When、Where、Why、Who)。

接下来,我们为了解决这一问题,就需要了解感知智能如何逐步地发展成为认知智能,以及如何将他们的价值充分体现在我们的业务和生活中。

我们认为人工智能应该分为两个阶段,也可以说是分为两个层次。一个是聪明的AI,主要指感知智能,比如感知、识别、判断,都是通过深度学习对这些数据进行更深层次的挖掘,找到数据的价值。这个只是对于数据本身,或者他们价值相关联的本身进行一些感知和识别。另一个就是有学识的AI,即基于知识图谱的AI,能够通过机器学习进一步的自我思考和优化,如语言识别和语言标注,以及更进一步的推理和预测。

那么,我们扩展到人类发展史再看一下,人类发展史分为农耕时代、工业时代、信息时代和智能时代,我们发现在农耕时代和工业时代主要是通过人对数据做理解,最终进行数据的加工和识别。到了信息时代,通过机器学习对原始数据和已知问题进行有机的关联,从而不断更新和迭代规则。在智能时代,智能系统通过机器学习,通过我们已知的规则数据,结合知识图谱,将我们所有的知识,以及所能够获取到的结果和规律性的东西进行有机结合,就可以用知识来去替代人,或者说尽可能地通过高效的人机结合,解决更多人没有办法通过自身去解决的问题。

从而我们可以看出,人类经历的每一个时代的进步,都是以特征工程的隐形化为基础,我们过去是通过人教机器的方式实现,人工智能不断迭代发展的过程中,机器需要不断地自我学习完善并发展。最终,人工智能是可以通过不断地优化,使特征工程更快的接近于人的智能。

这是我们使用OneMap在感知智能和认知智能阶段,通过图谱重构数据的图。在网络中大量的数据是二进制流形式呈现,在这个基础上我们进行多模态数据的转换,转换之后会有表格,或者是图形,图象等相关的数据模式;接下来,我们会根据不同的模式,不同的业务场景生成相应的图谱,将他们原先的关系型数据进行图谱化,变成一种行为的重构。然后,我们在这个基础之上,继续将这些图谱进行业务重构,关联认知智能,就成功将联系的数据变成可计算的数据。所以,我们就实现了在利用机器智能做计算的时候,可通过符号推理,语义计算以及结构计算,将我们以前难以理解的二进制流的数据变成人或者机器所认知的结构化信息,或者基于可计算的数据支撑业务实现。

从数据到业务,OneMap利用图谱提炼数据价值

OneMap的业务逻辑,是将图谱中间层有效地支撑业务智能,并驱动底层数据。我们通过获取到的数据语义的特征有效地驱动数据治理,再基于结构化、非结构化的设计,通过图谱进行目的性的驱动,同时知识图谱也能够通过获取语义的特征支撑上层业务分析的人工智能的分析,比如算法模型和多样化的业务应用等等。

OneMap的架构图分为五层,底层是数据,包括结构化、非结构化和半结构化数据。第二层是知识图谱层,数据不断滚动和不断涌现,这个过程中我们怎么样解决数据价值淹没问题,以往在做数据分析的时候,大多数是对结构化数据做分析和治理,对于半结构化,非结构化数据,怎样提取他们的有效信息,以及后续如何进行计算,则是我们(做oneMap)专注解决和深入考虑的。

第三层是统一的特征工程。即如何有效地基于数据重构建立业务模型,更多地支撑业务分析和业务应用。例如,特征工程将我们基于知识图谱对数据的理解和对于算法的理解进行有效的结合,实现对图谱的有效利用。

第四层是算法/模型层,我们在特征工程和算法模型结合的过程中,也赋能智能应用学习业务经验,其实图谱里不但保留应用过程中的结构信息,同时也保留了语义信息,这样一来,做完数据治理形成算法模型时,已经将结构信息和语义信息有效地提取和保留下来。从而,我们在整个多样化业务应用的前提下,将人的理解能力和对符号的推理能力,通过模型和算法有针对性地应用于业务中。

接下来我主要和大家分享一下知道智慧在图谱实践方面的探索。目前遇到过很多的问题,也有很多的困难,比如怎么样解决数据孤岛,包括图谱多样化、图谱表达的规范化以及业务层面怎么样能够有效地提取和利用图谱等问题。

我们将碎片化的数据,尤其是半结构化,非结构化数据,通过知识图谱进行自动化和半自动化的构建,形成我们的行业智脑。不同的行业有不同的智脑,比如说安全行业智脑,政府和金融行业的智脑,一方面是将行业知识在知识图谱里进行有效的结合利用,同时也是在业务场景上进行有效的展现和业务支撑。

OneMap六大能力,赋能政府安全

我们利用几年时间构建的OneMap,已经具备六个能力,第一,我们有自己的图谱的标准,这个标准主要是基于对象本身的,包括实体模型,事件类型和关系类型。第二,自动化和智能化的图谱构建的过程,涉及从数据到图,图的分析以及最后的业务展现应用。第三,混合存储架构,怎样将结构化、非结构化、半结构化数据在有效地提取和治理之后进行有效的混合存储。第四,能够将我们做的知识图谱进行第三方应用的共享。第五,共享过程中进行数据和知识的对接,解决数据孤岛的问题。第六,在数据形成图谱之后,我们在数据标记,数据识别,实体识别的过程中,将数据密级以及访问权限进行控制。

这是OneMap基本的框架,实际上图谱的构建、共享、图谱应用都是一个相对简化版的模型,不同业务场景和不同的行业领域来说又一些不同。

这是知道智慧在可视化图谱构建,尤其是结构化数据图谱构建产品,我们会将结构化数据,根据数据实体以及关系进行有效的构图。非结构化处理方面,包括数据标注,语义提取,以及基于事件实体和关系等方面的图谱模型,我们也做了很多实践性的工程化探索,目前我们在一些信息安全领域,或者在行业安全领域,以及风控和金融管控等方面做的非结构化和半结构化数据提取和标注取得了比较好的成果。同时,我们对于港式粤语以及境外小语种提取和标注也取得了一定成绩。

这是知识图谱的生成案例,这个业务是我们在涉及某境外地区的情报分析用到的图谱,这里面有基于人的,基于社会关系,网络关系,行为关系等等,这个可能看的比较复杂,但是实际应用过程中会根据我们所需要的业务场景进行有针对的图提取和有效的图计算。

这是我们在前段时间配合咱们国家有关部门做的案例,基于涉港问题,利用我们知识图谱做的研究。主要针对涉港的暴乱分子和涉港组织之间的组织行为关系和背后的线上活动关系,获取包括他们在涉港的社交媒体,或者在一些内部勾连的社交工具中的相关数据,以及从数据中获取他们相应的实体,和他们组织某些暴乱事件过程中的行为痕迹,将这些行为痕迹进行有效的关联,利用图谱分析他们背后的组织行为,这方面还是取得了比较好的成效。

从安全智慧大脑的落地,到行业标准的建议

最后一点,想与大家分享一下我们在支撑行业图谱方面的简单案例。

在安全领域从数据驱动的角度来看,数据、信息、知识更多是通过安全态势感知等方法将数据进行治理、融合,以有效的知识安全图谱或者主题的方式对安全的业务场景进行有效的分析和展现。

智能驱动方面,涉及大量的威胁情报,安全事件以及APT攻击组织。他们怎么样对我们企业内网、政府内网以及国家网络环境进行长期的影响和干扰,以及我们受到网络攻击的过程中怎么样检测、还原、取证,都是通过智能应用对网络安全的有效发现、预防以及反治提供支持。

知道智慧构建了自身的安全图谱,将数据、信息、知识进行有机的整合、治理,构建知识图谱并不断地积累数据和迭代图谱。其中包含很多威胁情报,有境外的,境内的,内网的,以及基于人的行为恶意攻击的,我们根据不同的知识种类分类和梳理,在这个基础之上构建图谱。最终协助安全分析人员进行简单的业务安全分析,同时协助用户侧的企业安全管理人员和运维人员进行安全预防和安全检测。

我们通过图谱还可以在线上支持多维度的业务分析,尤其是作为一家安全企业来讲,当我们提供了安全知识图谱,能够通过我们的安全大脑给用户提供类似于专家在线,或者在身边支持的服务效果,来解决一些复杂性的安全检测问题。

我们智能化、自动化地发现安全威胁也能够给企业提供高效的检测服务,同时降低企业的人工成本。

知道智慧的整个安全智慧大脑的架构图中包含从数据的治理到融合以及安全图谱的构建,智能分析中心,还有安全业务应用。在银行,企业,以及某些政府机关,基于安全知识图谱和模型算法,用户可以有效地利用安全能力。

简单举一个例子,通过安全知识图谱发觉安全事件。我们在很多企业或者是政府网络里经常会发现很多日志,流量有业务的风险问题,我们没办法进行有效的识别和处理,而通过安全知识图谱将一些安全流量数据和安全日志数据以及其他资产数据和风险数据有效结合后,可以完整的还原攻击链,一定程度上进行溯源。

最后,在行业知识图谱里,还有很多问题是需要我们共同关注的。

对于行业知识图谱的标准,我们提出了四点建议:第一个是知识图谱构建的过程需要标准化,无论企业,还是政府机构以及行业标准相关的单位,其实都需要对这个过程进行标准化的构建或者是标准化的输出。第二个是数据存储方面,也是需要一定的标准化来支撑,毕竟我们在非结构化和半结构化数据的标注、采集、治理等方面有不同的友商或者是不同的企业,大家能力不尽相同。如何将数据进行有效的存储,以及给企业和政府提供有效的识别和发现能力,也是我们需要共同关注的一个问题。第三个是图谱服务的标准化,图谱是一个很抽象的东西,但是和我们的生活、工作是紧密相连的。怎么将这种服务进行标准化,充分地发挥出图谱的价值是需要考虑的,我们也希望能够有这样的标准供参照执行。第四个是图谱业务分析,不同行业的分析需求不一样,一个是标准,一个是业务模型,还有一个是业务展现,这里形成的知识更丰富,也更完整。

借今天下午这样一个机会跟大家做如上的分享,希望大家多多批评指正,谢谢。

 

咨询、合作、进群,请联系爱分析工作人员:微信 ifenxi888