数据智能

百分点动态知识图谱如何“玩转”万亿级大数据

数据智能让决策更“智能”

2020年06月30日
指导 | 李喆 调研 | 文奕 鲍怡廷 撰写 | 鲍怡廷
  • 人工智能
  • 数据智能
  • 大数据
  • 百分点
  • 黄伟

“新基建”理念下,大数据中心成为社会基础设施建设的一部分,城市数字化转型势在必行。面对如今大规模的数据量,如何服务好用户让数据成为社会发展的助推器是每一个大数据厂商面临的挑战。目前,数据智能头部厂商百分点已完成万亿级大数据平台搭建,应用知识图谱技术,让数据智能更好的服务客户,让决策更“智能”。

城市生活数字化将是未来发展的必然趋势,这也符合“新基建”的论调。基于“新基建”的蓬勃发展,互联网、移动互联网时代将加速向物联网时代转变。每个大数据厂商都要面对数据量剧增的考验。千亿级、万亿级的大数据平台建设工程将是城市数字化转型的关键一环。

“AI+IoT+大数据”将是大数据时代的“铁三角”,技术融合应用将显得更加重要,AI让数据更智能,IoT让数据更全面。面对技术融合的需求,大数据厂商需要丰富自己的“武器库”,大数据与人工智能要做到“两手都要抓,两手都要硬”。

面对数据智能的变革时代,数据智能头部厂商百分点以技术驱动发展,采取国内、国外业务并行发展的策略,应对这次充满机遇的挑战。

应对超大规模知识图谱构建挑战,建设万亿级大数据平台

2009年创立的百分点以个性化推荐的SaaS产品起家,在公司创建的前五年积累了针对于海量多源异构数据的处理和分析能力。在2016年,百分点响应国家的“一带一路”倡议,进行海外业务拓展活动。

在海外市场,百分点抓住建设国家级大数据平台的机会,让百分点积累的技术能力在强场景中落地应用。在海外与政府用户的沟通中,不仅使百分点对业务应用有更深刻的理解,而且国家级大数据平台的搭建,也让百分点在一次次的挑战中快速积累实力。正是在项目中的不断沉淀,使得百分点具备了建设万亿级大数据平台的能力。

面对万亿级的数据量,百分点设计了一套具有自身特色的平台架构,来应对超大规模知识图谱构建的挑战。百分点以ClickHouse为平台核心存储、以Kafka为消息通道,应用SparkStreaming进行实时数据处理,基于ElasticSearch实现跨数据中心的全文检索,同时基于HBase+Ceph封装百分点自研的OSS服务。

动态知识图谱应用,“玩转”大数据

百分点在做“千人千面”的个性化推荐系统时,已经形成一套早期的标签管理系统。但在不断深入企业级市场的过程中发现,单独描述实体属性的标签系统已经难以满足客户的需求。于是,百分点在标签系统中增加关系的刻画描述,而这正是知识图谱技术的雏形。

知识图谱技术于2012年由Google正式提出,最早广泛应用于搜索场景。企业级市场的需求促使百分点将知识图谱技术落地于行业场景内。在实际应用中,知识图谱可以梳理数据脉络,得到知识网络,更直观地看到数据关系,同时还可以进行知识推理,更好地服务企业级用户的大数据应用。

2018年,随着人工智能及大数据技术的普及应用,信息呈现爆炸式的增长,加入时间维度的动态知识图谱应运而生。百分点是国内最早提出动态知识图谱技术的厂商之一,原先的知识图谱技术抛开时间维度研究实体与实体之间的关系问题,但在实际的场景中,时间维度是一项重要指标,很多场景下只有在特定时间段内,实体关系才是有价值的信息。

同时,百分点推出动态知识图谱的意义还在于其在知识图谱中同步新数据的过程更友好。数据在不断的更新过程中,系统不需要停止服务即可同步新数据,不影响业务层工作。

知识图谱让数据更“聪明”,让决策更智能

人工智能与大数据相辅相成,更好的技术融合将是未来发展的主旋律。知识图谱的构建过程,需要处理大量的非结构化数据,如针对于文本信息需要NLP(自然语言处理)技术等。这里就需要实现技术融合,而不是单独的大数据技术可以完成。技术在发展过程中不应被割裂,更好的技术融合会产生“1+1>2”的效果。

百分点致力于将人工智能与大数据更好的融合,目前已自研NLP算法,在全球的项目中均有落地应用。同时,目前更多的技术融合是感知智能与大数据的技术融合,而认知智能是更高阶的智能,将数据与认知智能技术的融合也是百分点所追求的,认知智能+大数据的融合将使数据更“聪明”,真正的可以做到推理判断、辅助决策,让决策更智能。

近期,爱分析对百分点首席架构师黄伟先生进行了专访,针对于百分点的产品服务、战略选择以及行业趋势等方面进行了深入交流,现将专访精选内容分享如下:

顺应市场需求,率先提出动态知识图谱

爱分析:您能简要介绍一下公司知识图谱产品的迭代发展情况吗?

黄伟:百分点在2009年成立初期,主要做个性化推荐系统,基于商品画像和用户画像做千人千面的推荐。2014年公司转型企业级服务,将用户画像、商品画像的理念抽离出来,形成了公司早期的标签管理系统。

随着业务的深入拓展,只刻画一个人或者一个物品已经不能满足用户需求,实体之间的关系尤为重要,特别是安全行业非常需要用到知识图谱。为了满足行业需求,百分点逐步迁移到了知识图谱技术上,在标签体系中增加了关系属性的刻画。

在2018年,百分点把知识图谱升级成动态知识图谱,这套动态知识图谱能够保证在新数据源来的时候,系统不停止服务,很快地通过配置把新的数据融到知识图谱中。

随着海外业务的拓展,公司开始承接国家级大数据平台的构建,数据量陡然增大,平台性能面临巨大挑战。通过近几年在海外项目和业务的沉淀,在性能上成功实现突破,能够处理万亿级别以上的数据。

目前,客户业务场景中的非结构化数据越来越多,我们在知识图谱技术上新的目标是更好地处理非结构化数据,从2019年开始做相关研究,并进行大量研发投入,将NLP技术和知识图谱技术进行融合,现在正逐步将非结构化数据全面融合进知识图谱中。

爱分析:动态知识图谱应用是否是知识图谱技术发展的必经阶段?

黄伟:百分点最早提出动态知识图谱是因为项目的需求。知识图谱需要纳入更多的数据形成更大规模的知识体系,客户在使用知识图谱应用时,会逐步协调新的数据纳入进系统,但此时系统已经在线上使用,需要系统在不停止服务的情况下将数据动态融入到当前的知识体系。

百分点动态知识图谱技术就是为了实现这个目标,让图谱中的本体能在新数据纳入时动态更新本体体系,而不影响上层应用的设计。

爱分析:您能介绍一下知识图谱技术与关系分析的区别?

黄伟:传统厂商早期给公安行业做的关系分析功能,核心是把表的内容在界面层进行UI展示,这是最初级的应用,也不是运用的知识图谱技术。在知识图谱中没有表的概念,只有实体、属性和关系。知识图谱应用对于数据库的要求也更多,不是单一的技术就可以实现的。目前的公安行业,知识图谱技术也是在逐步的推广落地过程中。

并且,在实际业务中,一个实体或者人员的信息可能存在于多个地方,传统厂商的比对分析是靠多个表的碰撞或者交叉比对来实现,用户体验较差。知识图谱将知识融合做好后,可直接获取与其相关的知识。目前百分点知识图谱平台构建的是和搜索信息相关联的知识,完全没有表的概念,业务人员可以更好地应用。

面对大规模数据流,百分点完成万亿级数据平台建设

爱分析:目前百分点构建知识图谱平台的主要数据来源是哪里?

黄伟:百分点作为技术提供商,将技术赋能给客户,数据都是来自于客户本身。在实际项目中,客户内部也有自己的部门壁垒,不是一下就能拿到所有数据,而且,项目后期还需要不断增加数据,这是项目落地中一定会遇到的问题。因此,知识图谱的设计也是一个迭代的过程,需要用动态知识图谱技术来解决。

爱分析:2018年底到2019年上半年这段时间,百分点知识图谱平台在落地中面临了哪些挑战?

黄伟:首先是存储问题,使用图谱会可能改变原有的存储方式,如果要增加更多的存储,用户就会考虑到底要不要上知识图谱。其次是查询问题,当数据存储后,要保证平台能够查询。

所以,在这两方面百分点都做了很多研究。目前,在存储方面,平台压缩比可以做到5:1,来保证平台的存储体量尽量减少。在查询时,单台主流服务器在15秒内能够扫描10亿条数据。比如在某国家级项目中,第一期上线300台服务器,第二期上线3000台服务器,体量非常大,在做了大量性能优化后,目前百分点已经具备搭建万亿级别的大数据平台能力。

立足公共安全领域,辐射多行业应用

爱分析:百分点目前将知识图谱技术主要应用在哪些领域?

黄伟:目前主航道是数字政府业务,包含数字城市、应急管理、公共安全和生态环境保护,这些其实都会涉及到知识图谱。现在知识图谱是整个公司技术体系中非常重要的一环,知识图谱相关产品在海外市场许多国家都有应用,现在逐步落地越来越多的国内政府客户。

爱分析:目前知识图谱技术的落地情况如何?

黄伟:目前来说,落地比较好的场景一是传统的搜索引擎,通过KG技术增加用户体验;其次是线下场景,如安全行业知识图谱和金融行业内的知识图谱。

安全行业的知识图谱技术主要有三点作用:

第一,安全行业天生具有多源的数据,天生需要做数据融合,知识图谱提供了一套理论方法论融合数据,所以知识图谱技术目前在安全行业应用较多;

第二,知识图谱天然的优势是显示直观,有了知识图谱后,大大的拉近了业务和数据的距离。之前业务和数据中间隔着开发,但是应用知识图谱可以直接看到业务和数据的关系。比如安防行业,需要专业的分析人员的介入,应用知识图谱后,可以提高人的工作效率,通过平台显示知识就能够直接帮助业务,数据价值得到了最大发挥;

第三,认知智能是更高阶的智能,现在的人工智能停留在感知层面,没有很多业务知识的背景,如果没有知识的话更加难以智能化。所以,在构建出知识图谱后,可以让AI更加智能,也因此现在越来越多的行业逐步提知识图谱这个概念,都在想办法去落地。

爱分析:知识图谱技术在一个行业落地的条件是什么?

黄伟:第一是数据,行业要有多源数据,比如像安全行业、金融行业;第二是有较大规模的知识场景应用需求;第三,人工介入的工作量是可控的。

爱分析:将知识图谱技术应用于多个行业中的难点是什么?

黄伟:难点不在于技术,而在于落地到具体行业的场景挖掘和专业领域的知识储备。在技术方面,百分点整个知识图谱技术体系是可以实现行业间的迁移的,同时在场景方面,已得到实践落地的行业场景应用也能够对其他行业有所启发。

融合非结构化数据,深入行业业务

爱分析:是不是数据越多元化对于知识图谱平台越好?

黄伟:是的。数据越多元化越好,因为这样知识体系越完善,所以在平台部署的过程中,客户就一定会想方设法拿更多的数据进来。这样就会遇到平台已经上线后,需要添加新的数据,这时就需要动态知识图谱的技术,将数据动态融入知识体系。

爱分析:知识图谱构建过程中的重点和突破点是哪里?

黄伟:现在我们知识图谱突破的重点在于融合所有的数据。这些数据不仅包括客户的高价值密度结构化数据,还包括如互联网上的非结构化数据,甚至是客户的非结构化数据。这里面就会涉及到知识的抽取,如文本、图片等数据,就需要NLP及图像处理技术。知识抽取后,还涉及实体对齐、知识融合、知识推理等一系列技术问题,均是我们的重点技术突破点。

爱分析:如何看待国内知识图谱市场的发展前景?

黄伟:在服务客户过程中我们发现,行业客户对知识图谱的应用诉求非常强烈,核心需求是将行业数据知识化,用知识辅助决策者更加智能地决策。但是,当前的知识图谱市场还处于早期发展阶段,行业客户和技术提供商不断地碰撞落地场景,不断地推进技术迭代更新。如安全、金融等领域落地进展较快,同时医疗、法律等行业发展也很迅速。

《2020爱分析·中国知识图谱应用趋势报告》即将发布,扫描下方二维码,即可预约领取。