在最近被热议的元宇宙中,图数据库有了最新的应用案例。
作为被科技界构想的下一代互联网形态,元宇宙是一个平行于现实世界,具备绝大部分人类社会要素的数字时空。为了给参与者提供更多交互和体验的可能性,元宇宙中除了会有大量人造的景和物,还会有大量无处不在的高仿真数字人类,他们有着接近真人的思考能力,和足够的知识储备。
而结合了图技术与领域知识的知识图谱,则是支撑数字人类理解人的意图,并做出恰当反馈的关键。前不久,来自那不勒斯大学的开发者对外展示了基于游戏引擎Unreal Engine的对话代理(Conversational Agents)的开发框架,该框架将多个数据源传输至图数据库中并建立图谱,Unreal Engine则连接了图数据库、信息输入设备和第三方NLP服务等。通过该框架开发的对话代理,能够为玩家解答问题,以及完成指定的任务,这为当下的游戏或者未来的元宇宙创建数字人类都提供一个可行的解决方案。
知识图谱是图技术应用在AI中的一个重要方向,但事实上,图+AI的应用远不止于此。由于图技术具有对关联数据极高的查询效率、接近现实世界关系的数据模型等特点,其在加速数据分析和促进AI应用方面具备天然的优势。一个明显的现象是,业内领先的图数据库厂商,如TigerGraph等,近两年来纷纷投入大量资源,与各行业的头部公司在“Graph+AI”这一新兴领域进行深入合作和探索,并已实现了大量应用案例。
那图技术对于人工智能应用到底有何帮助?图技术是如何实现这些优势的?以及“Graph+AI”有哪些应用案例?爱分析将通过本文对这些问题做梳理和解答。
01 图技术通过提供数据中的上下文背景信息实现更智能的AI应用
人工智能可以理解为是通过一组工具的组合来实现对人类智能的模仿。人类的思维和决策过程通常会包括信息输入、学习和归纳经验、分析判断、输出信息和执行决策。因此为了实现对人类智能的模仿,人工智能技术也可以被大致分为四个层级:感知、学习、推理和交互,他们主要包含的技术栈如下图。
图1:人工智能技术的四个层级
然而当下的人工智能和人类智能的一个重要区别是,人在做决策时会在上述的思维过程中结合大量的背景信息快速给出判断,人工智能的实现则通常需要以大量数据为基础,进行包含尽量多参数的模型训练,并需要结合更明确的规则,以及更具体的应用。这样的AI模型非常复杂,开发难度大,消耗的计算资源多,并且往往也不够智能。解决目前AI局限性的一个思路是在AI模型中引入上下文背景(Context),而图技术正是为AI提供上下文背景的重要手段。
通过对业内讨论和对企业实践的总结,图技术能够从四个方面为AI应用提供上下文背景,从而加速AI的应用。
第一,通过知识图谱为分析决策提供背景信息支持
知识图谱是将互相关联的事实连接起来,以人类理解事物的方式描述各种事物(实体),以及他们之间的关系。因此知识图谱可以在AI应用中简化分析流程、自动做出应答,以及实现大规模的智能决策。
知识图谱有三种主要的类型,他们也从不同的角度促进AI应用。
1)结合了大量领域知识的知识图谱。该类型的知识图谱解决的是在大规模文档或语料库管理中,简单的关键词搜索不能有效查询信息的问题。通过给元数据打标记,知识图谱能够将文档之间的信息进行关联和整合,从而以更快的速度遍历整个图谱。这类知识图谱的典型应用案例包括了我们日常都会使用的搜索引擎,以及帮大型企业或机构做文档管理,从而在大规模文档中快速找到需要的信息。
2)能够感知和应用外部信息的知识图谱。市场瞬息万变,企业需要随时根据市场信息做出最优的商业决策。能够感知和应用外部信息的知识图谱可以将外部信息或数据整合进图谱内部的实体中,企业因此能够确认市场信息与内部信息间的上下文关系,为商业决策提供支持。
供应链风险评估和优化即是该类型知识图谱的典型应用。以汽车制造商捷豹路虎为例,其在生产过程中需要即时分析消费偏好和市场条件等变化对其供应链预测和规划的影响,降低供应商风险,减少生产混乱。捷豹路虎通过使用TigerGraph图数据库将12个独立的数据源整合在一个相当于23个关系表的图谱中,涵盖了数百家供应商提供的零部件信息,并允许随时添加额外数据集,通过特定模型和配置材料清单,最终完成对汽车的制造顺序与订单预测,不仅降低了库存成本和营运资金,提高了盈利能力,供应链计划也从原来的三周缩短到45分钟。
3)用作自然语言处理的知识图谱。该类型的知识图谱能够理解人类语言的复杂性和细微差别,因此可以被企业用于识别技术术语、产品名称、首字母缩写、部件编号、常见的拼写错误等方面,从而改进搜索并提供更相关的结果。
第二,通过关联数据特征提高AI模型的准确度
在机器学习模型开发中,算法好不如数据多,很多机器学习都是因为缺乏充足的训练数据而失败。这是由于传统的机器学习模型依赖于从关系型数据库中输入的表格数据,因此在模型训练和特征工程中,需要对这些数据进行抽象和简化,数据中包含的大量预测关系和背景信息也因此会被忽略。通过将数据以图的形式存储起来,企业可以在图数据库中直接提取数据的关联特征,并将重要的信息合并,避免了上述问题。
欺诈检测是关联数据特征在AI应用中最重要的方向。通常来说,欺诈检测如同大海捞针,因为欺诈者往往会通过多层次的关系网络来隐藏和混淆欺诈活动,但有了图技术,诸如电话诈骗、信用卡退单、洗钱等欺诈活动都能够被轻松识别。以中国移动为例,为了将存在疑似欺诈活动的电话号码与其余属于普通用户的电话号码区分开来,中国移动使用TigerGraph图数据库为其6 亿个号码分别生成 118 项新特征,从而创造了超过 700 亿项新特征作为训练数据,而在这些关联的数据特征中选择跟欺诈相关的特征或属性则会非常简单,欺诈电话也就会被很快识别出来。
第三,通过图技术集成关联数据,提高数据查询速度,加速机器学习
AI模型训练和迭代的过程非常复杂且耗时,是当前AI应用的重大挑战之一。这主要由两个原因引起,第一是数据存储在表格中时,需要多次操作将数据连接起来。例如在协同过滤中,由于涉及多个表、索引和查找需求,数据科学家需要使用多个“Join”将表连接起来。第二个原因是,为了避免机器学习算法对所有数据进行计算,数据科学家需要手动创建数据子集,但这会减慢模型迭代速度,因为这个过程是需要密集的计算,并且需要人工参与。
图技术恰好能够提供背景信息提高模型训练效率。首先是因为,图谱中的数据天然就是连接在一起的,免去了表格连接操作的同时,也可以大规模遍历和快速分析不同分离程度的数据关系。其次,在图数据库中,数据科学家仅需使用简单的图查询就可以快速得到所需的数据子集,从而加快模型训练过程。
第四,通过可解释AI提高模型的可信度
在人工智能和机器学习发展过程中,不可解释性是其固有的顽疾,这也反过来阻碍了AI的推广和应用。比如在金融风控、医疗等领域中,了解AI是如何以及为什么做出决策是决定其被相关部门采用的关键。
可解释AI目前是业内在重点探索的一个方向,已有的实践表明,图技术能够使AI模型更具可解释性,这种可解释性主要体现在数据、预测结果和模型三个层面。
1)数据的可解释性是指可以让使用者知道什么数据被用于模型训练以及使用这些数据的原因。通过将数据存储在图中,企业可以清晰、快速地查看和了解数据的血缘关系,包括数据在何时,以及被谁修改或使用过的所有信息。
2)预测结果的可解释性是指可以让使用者知道在一个特定的预测结果中使用了哪些数据特征,并且知道相应的权重。例如,数据科学家可以将神经网络中的节点用标记的图谱关联起来,当神经网络使用其中一个节点时,所有的相关数据都可以被洞察到,从而可以从这些相关数据中识别出该节点,并推断出关于该节点的解释,即权重。
3)模型的可解释性是指可以让使用者了解在一个特定的预测结果中,神经网络的哪个层或阀值起了作用。图技术也使得在神经网络的每个层中获得解释性变得可能,不过该领域还需进一步探索应用案例。
02 Graph+AI是一个充满潜力的领域,但应用落地仍存在较大挑战
越来越多的企业已经意识到了图技术对于加速数据分析和AI应用的价值,也纷纷尝试在业务中部署图技术,但实践中仍面临着以下两大挑战。
第一,企业对于可以在哪些分析或AI项目中使用图技术认识不清。“Graph+AI”是一个相对新兴的领域,虽然业内已经有了不少的应用案例,但一方面各行业的业务形态和业务需求差异很大,另一方面,人工智能正处于快速发展过程中,仍然有大量的应用场景有待开发。
第二,企业对于如何将图技术集成到分析和AI项目中缺乏经验。许多企业的“Graph+AI”的应用都停留在算法层、应用层,但把数据中的关系找出来推理,然后提供价值,并不是每个企业都有相应的技术和人员能够支持和实现,因此需要一个强大的底层技术引擎来支撑图数据的存储、计算、推理等操作。
对于上述的挑战,业内领先的图技术供应商早有了大量探索和实践。在应用案例方面,如前文提到捷豹路虎和中国移动,其底层的图数据库和图分析引擎都是由TigerGraph提供。TigerGraph图数据库可以对大量的供应商、产品、用户等信息进行分布式的加载,连接数据孤岛。加载之后又会对数据进行数据压缩,从而保证高效的数据载入以及降低硬件成本的需求。同时,TigerGraph深度的图查询能力使复杂的图分析成为可能,加上其对在线服务具有高并发请求的实时应对能力,可以处理大量用户的应用请求。
此外,为了帮助正在尝试部署图技术的企业解决其面临的挑战,TigerGraph也已连续两年举办业内唯一且专门的“Graph+AI”峰会,聚集了来自全世界的领先企业,探讨图技术如何加速分析和人工智能,分享具体的应用案例,以及如何将图技术集成到企业的分析和AI项目中等问题。今年“Graph+AI”中国峰会也会在 10月20号以线上直播的形式举行,峰会会带来图技术领域哪些最新的进展值得期待。
可以看到的趋势是,图技术由于其在AI应用中的优势,正越来越多地被金融、制造、医疗等各行业的企业在各种业务场景中所采用,这使得在DB-Engines的统计中,图数据库成为过去五年受欢迎程度增长最高的数据库类型。相信随着人工智能时代的到来,图数据库将进一步发展,成为数字化的核心基础设施之一。