金融

御数坊刘晨:金融机构如何实现协同化与智能化数据治理能力跃迁?| 爱分析活动

爱分析邀请御数坊创始人及CEO刘晨进行了题为《金融机构如何实现协同化与智能化数据治理能力跃迁?》的主题演讲。

2021年11月16日
  • 金融

近日,爱分析在京举办了2021爱分析·产业数字化峰会。爱分析邀请御数坊创始人及CEO刘晨进行了题为《金融机构如何实现协同化与智能化数据治理能力跃迁?》的主题演讲。

近年来,大数据重塑了金融行业,给金融领域带来了巨大变革近年来,同时数据治理越来越受到银行、监管机构乃至国家层面的重视。刘晨先生分析了国内金融机构近几年数据治理的现状和行业痛点,然后针对性的阐述了协同化与智能化数据治理能力建设要点,最后对数据治理行业的未来做出展望。

现将刘晨先生的演讲实录整理后分享如下。

刘晨:非常高兴可以来到爱分析金融行业的数字化分析论坛里面分享一下御数坊这两年对于数据治理能力进阶上的一些思考,我们今天提出来的是协同化和智能化的两个理念,稍后我们会进一步阐述。

1.金融机构数据治理现状与挑战

1.1.御数坊介绍

先来简单介绍一下御数坊,御是指统御,从名字上就能看得出来我们是专于做数据治理的。御数坊在2014年底成立,到现在接近7年的时间,是国内第一批获得国际数据治理认证的专业团队,参与过三项国家标准的编写。

我们的客户包括央行、商业银行、证券公司、保险公司、能源类企业和汽车制造类企业等,遍布金融、能源、制造等各个行业。这也体现了我国现在各行业在数字化转型过程中对数据治理的广泛需求。各行各业都迫切希望提升自身数据的质量,增强数据的可用性,体现数据的价值。

我们今天主要谈三个问题,第一个问题是目前金融机构数据治理存在哪些挑战。金融机构是国内数据治理的先行者,部分头部银行在十五六年前就开始着手数据治理,银监会也在十年前就做了行业性的推动。近几年银监会对于数据治理的要求越来越高,银行业或者金融业所走过的数据治理实践道路对于很多行业有借鉴意义,同时其他行业的实践经验也可以帮助金融机构在进入数据治理深水区的时候提升自身的能力。因此,我们要谈的第二点就是实现数据治理能力协同化和智能化的建设要点,我们讲的内容不仅仅适用于金融行业,在其他行业也有广泛的落地应用。最后是简单的建议和总结。

1.2.数据治理,数据价值金字塔的底座

我经常在演讲中提到这个图,这是数据价值的金字塔,上午在主论坛的时候很多嘉宾都提到我们的数据治理工作要可以结合业务、结合场景实现公司的业务的降本增效和开源节流,产生数据的价值。这些是数据价值的上层部分,大家都希望通过数据治理获取业务价值。然而业务价值的体现离不开数据智能平台的搭建,数据智能平台包括数据中台、大数据平台、人工智能平台和以前的数仓。除此之外,对于包括金融机构在内的很多企业来说,底层的数据基础还有很大的提升空间:

数字资产不清晰:有哪些数据资产,数据资产怎样分布和使用。

数据的责任不清楚:现在都讲数据的确权,但是数据确权的前提是清楚界定数据的管理职责。

数据质量低下:在长时间信息化的建设中积累下来的数据资产存在着诸如数据孤岛、数据不一致、数据不准确的等问题。

数据安全风险:刚才的嘉宾讲到,以前强调网络安全和信息安全,现在则更关注数据安全。数据安全法、关键基础设施条例等法规的出台标志着国家对于数据安全的重视程度越来越高。

底层的种种问题制约着包括金融在内的所有行业的数字化转型全过程,导致企业投入时间长,投入的资金和人员成本很高,却很难快速见到价值。这时候我们通过数据治理的工作就可以让数据价值金字塔的底座打得更扎实。

1.3.国内外数据治理理论发展已趋于成熟

从理论上来看,大家在讨论数据治理时都会提到DM。DM体系下的数据治理包括了架构、安全、质量、元数据等。DM知识体系是国际上的理论,在2009年推出了1.0版本,在2017年更新了2.0版本,已经比较成熟了。在国内的理论研究方面,工信部的标准院和信通院都发布了一系列的白皮书,形成了中国自己的知识体系,我们也参与了部分国家标准的编写。这其中认知度比较高的应该是DCMM模型(数据管理能力成熟度评价模型),这个模型从数据战略、数据治理、数据应用等8个核心能力域和28个能力项对一家企业的数据管理能力进行全面的评价。这项内容是在2018年作为国标发布,到现在已经有接近4年的时间,也算是比较成熟了。

无论是国际还是国内的理论体系都趋于成熟,为大家在实践当中提供了很多可以借鉴的理论方法。

1.4.金融机构高度重视数据治理,数据质量、安全、价值成为数据治理的多重目标

金融行业一直以来都非常重视数据治理工作。首先从国家的法律法规层面来看,原来有网络安全法,最近又出台了数据安全法和个人信息保护法。就行业而言,银监会从2009年开始就开始发布数据标准和治理的专项研究报告,在2018年发布了参照了DCMM设计模型的《银行业金融机构数据治理指引》。除此之外,近两年还有《金融业数据能力建设指引》、《金融数据安全 数据生命周期安全规范》、《金融数据安全 数据安全分级指南》等一系列的金融行业数据规范密集出台,对金融机构自身的数据治理和数据安全能力的做出了要求。

同时金融行业也有很多因为数据治理、数据的报送不符合要求而被罚款,像几大行在去年的三四月份被罚了300万到500万不等,这说明金融行业一直以来都非常重视数据治理的工作。

1.5.数字化实践困惑重重:建设有余,见效不足

在经历多年的实践之后,数据治理还存在着很多困惑,对此我们总结了四个方面,总体上来说就是大家对于数据治理的能力建设有余,而见效不足,就是效果的落地和价值体现并不清楚。可能现象是这么几方面,比如说上午也提到了领导和人才,公司可能会很重视企业的数据治理或者数字化转型,成立了高层的领导小组,但是成立了之后人员到位了,究竟下一步做什么不是很清楚。或者做了很完整的顶层设计,可能找大的咨询公司做千万级的规划,做完了这个规划之后,真正落地的时候可能不知道怎么和业务结合,这就是顶层设计和实施路径之间存在着一个脱节的情况。

除此之外因为数据治理的工作往往由IT部门发起,IT部门自身主导很强,但是业务部门可能会因为对数据治理工作不理解或者觉得和业务场景结合不紧密,从而造成业务部门的参与度比较低。通常在数据治理工作初期业务部门会在一定程度参与进来,但是如果之后业务价值体现不明显,业务部门的参与度就会降低。

另一方面,从IT团队的角度来说,他们参与数据治理的主动性很强,既找人做了咨询,又尝试了构建数据资产目录、数据质量检查和数据治理平台等各种各样的手段,但是收效甚微,也会觉得很困惑。

现在包括数据资产盘点、数据质量分析、数据安全分类分级在内的很多数据治理工作还是由乙方的顾问或者甲方发工作人员通过手工的方式开展,工作效率很低。

IT部门和业务部门都认为数据治理很重要,但是如何发挥价值同时工作得更有效率是很大的痛点。

2.协同化与智能化数据治理能力建设要点

2.1.协同化数据治理是业界普遍需求和趋势

该怎么应对这个痛点呢?分享一些我们的观点和实践。

首先我们认为协同化是现在数据治理业界的趋势,民生银行的黄院长和我都引用了报告《数据生产力 新动能 新治理》。这份报告里专门提到了协作型的治理,其观点核心是在数据利益的相关者之间铸就相互依赖的关系,让大家一起协作发掘数据自身的价值。以前的数据治理是管控型的治理,不让大家随意地去修改或者变更数据,通过要求和规则的方式开展治理。但是现在数据治理朝着多方协作的方向发展,共同达成数据的目标,实现数据的价值。

国外也有一些产品研究的机构,对于数据治理的功能分析后也发现协同是数据治理平台重要的能力。

2.2.智能化数据治理是业界普遍需求和趋势

我们关注到智能化也是最近两年的业界热门议题。Gartner的报告中提出AI技术在数据治理中的应用会越来越广泛。去年有一份叫《数据管理的未来》的报告,其中提到了基于动态的元数据创造自驱型的数据管理,以前需要靠人读的元数据,未来可能由AI技术自动化处理,开展数据治理的工作。同时它也列出了最早在人工智能加持下些数据治理的功能,如数据集成、数据准备、数据清洗和数据的发现等。因此,可以看得出业界对于智能化在数据治理、数据管理中应用的前景比较乐观。

今天上午黄院长提到莫干山会议等内容让我感同身受,莫干山会议在中国经济历史上有奠基性的意义。

2.3.御数坊主张:以新四化理念,推进数据治理能力跃迁

基于对业界理论、实践痛点以及未来趋势的观察和思考,我们在今年初的时候提了数据治理的新四化。我们对于数据治理提出新四化:价值化、精益化、协同化、智能化。

第一点是价值化。无论是做数据质量管理、数据标准,还是数据资产目录,都首先要提升价值,给公司的业务部门带来显性的价值和成效。

第二点是精益化。精益化是指从业务场景出发,提高企业数据治理实践的深度和细度,这其中包括数据资产目录,数据标准,数据质量管理办法等。

第三点是协同化。以前数据治理项目由治理团队来主导,数据团队和业务、中台建设等其他团队脱节无法有效合作。我们倡导把数据资产盘点、数据标准、数据质量等局部的专项数据治理工作整合起来。这需要把各种数据治理的能力协作起来,把各部门、各团队的人员协同起来,这就是我们强调的协同化。

第四点是智能化,这方面需要我们通过AI技术来降低数据治理的人工的投入。在算法的辅助下数据治理工作可以显著地提高效率,增强效果。

2.4.御数坊理念落地——DGOffice:“协同化、智能化”的数据治理平台

为了让新四化理念有效落地,我们精心打造了DGOffice数据治理软件平台,御数坊前几年的咨询业务比较多,我们的咨询服务是帮助甲方打造数据治理团队和运行机制。DGOffice是一个数据治理的办公室,在平台上开展数据治理工作像用office一样简单。

DGOffice的亮点在于我们把数据治理的各种成熟方法论沉淀在我们系统的应用层,让不太熟悉数据治理的人在线按照流程和模板的引导就可以非常容易地上手开展数据治理工作,从而解决人才培养困难的问题。同时系统也提供低代码开发的环境,从而可以更简单、更快捷地完成定制化的需求。右边有定制化的数据治理智能引擎,通过自然语言处理、知识图谱和深度学习等技术把以前靠人读和梳理的数据治理工作用算法来做,提高工作效率。

2.5.协同化:以数据认责为基础,场景化数据治理

我们认为协同化的核心是数据的认责,做数据管理要搭建数据认责的体系。企业内部有海量的数据资产,数据是生产资料,而人是生产力的一部分,如果生产资料和生产力的管理关系都没有理清楚的话,那么无论是数据治理、数据应用,还是数据平台建设都一定是脱节的。

基于数据认责体系,首先可以促进数据治理自身的协同,比如数据标准和质量的协同,数据安全和数据资产的协同等。其次可以促进数据生产的协同,数据生产指的是业务系统的建设,例如ERP建设、核心信贷系统建设、证券账户管理系统建设等。其中也包括数据中台的建设,数据中台采集数据、加工数据、分析数据、产生各种标签和应用的整个数据加工和生产的过程也需要有效地协作起来。

 我们希望通过数据流的贯通可以促进业务的合作,最终促进业务效率和运营效率的提升。比如财务和业务的一体化;电网的营销、配网、生产的一体化,这体现的是业务的协同。

2.6.数据资产管理:多方协作参与数据资产盘点与目录构建,理清数据资产家底

协同化的核心是认责体系。我们基于协同化的理念做了一系列数据治理的落地工作。首先是在数据资产管理方面,我们倡导形成多方协作的方法论,比如说在数据资产的盘点过程中的“八步法”。其中从盘点工作的筹备到元数据的采集,再到重点资产和核心资产的识别,以及有效资产的识别和标签等工作不是由数据治理团队自己完成,而是由业务部门、数据治理团队、数据中台的建设团队、业务系统的建设运维团队之间多方协作完成。

如果只靠数据治理团队则一定没有精力和能力把所有的资产都盘点清楚,所以我们强调按照流程化的步骤,多方协作的方法论,然后将方法论沉淀到系统当中,可以让业务人员比如说他在做业务信息完善的时候,他只在这一步登录进来完成他自己的录入就可以了,数据治理的人员参与到比如启动盘点筹备,把一个复杂任务分解成不同角色配合完成的简单任务。通过这种方式,我们自己提供两个支撑人员,带着甲方或者其他合作单位的几十个人员,比如说可以快速地在两个月内完成上百套业务系统的数据资产的盘点,形成字段级的数据资产的信息,形成像影响分析等等一系列的数据资产的关系图,提高工作效率。让各方维护的信息更可信,各方对它的接受度更高,这是以协同的方式开展数据资产盘点的例子。

2.7.数据认责管理:构建数据资产与组织人员的权责矩阵,保障各方高效协同

我们支持在企业内部构建数据认责体系,比如华为强调的数据管家,但是对于很多企业来说数据认责的工作都没有开展。我们接触到近百家公司连业务部门的数据管家都还没建立。

我们首先会为企业做数据责任的规划,为其总部、子公司和前端的一线分支机构,以及不同的业务部门、岗位分配不同的数据责任。在这个咨询规划的过程,我们会根据认责体系推行的方法论为业务认责方、技术认责方、操作认责方等各种角色会配置好相应的认责计划。比如说对于一家电网公司来说,我们在两周左右的时间实现了它覆盖7000人的数据认责。省公司把平台和方法论部署下来,同步给600多个供电所去执行数据认责的任务;在基层单位,不同的数据项和数据表被分配给不同责任人,数据责任的具体内容也被清晰地划分出来,例如定义数据的责任、操作数据的责任、审核数据的责任等。通过这种方式可以将数据认责体系快速构建起来。

基于这个数据认责体系,这个电网公司再做数据质量提升工作的时候效率大大提升。一个省公司有六七百个供电所,每个供电所一年节约几万块钱,每年节约解决数据问题的相关总成本超过千万。

这项工作在南方电网全局推进,然而我对接的一些大银行目前为止的数据认责工作都还没做到基层的一线业务部门。所以未来数据认责的推广是数据治理深化工作的必经之路。

2.8.数据质量管理:面向业务场景,多方协作参与数据质量专项提升,提升业务价值

在数据质量方面一样要强调协同化,数据质量工作必须要面向业务场景开展。以前我们的数据质量工作都是IT部门自己检查数据问题,然后分发给业务部门,出一个数据质量报告就结束了。但是对于业务部门来说他们可能并不关心数据规则,他们更关心数据问题有没有得到快速的解决。所以我们还是应该回到数据质量问题发生的业务场景当中,根据业务部门的需求确定检查哪些数据资产。然后根据数据认责机制确定数据资产的数据责任,把问题和责任分配到元数据管理好的业务流程和数据资产的关系上,从而面向业务部门最关心的问题开展数据质量提升。

通过这种方式我们可以为移动通信的运营商实现一个单一场景一年降低五百万左右的数据质量的成本。移动通信的运营商一个月因为错误数据导致的订单错误就有两千多笔,这都是可量化的经济价值损失。这就是御数坊做数据治理一直强调的:数据治理工作一定要结合业务并带来经济价值。

关于协同化以前有个误区,数据治理工作只在数据中台内部做,停留在数据平台里。因此我们强调要打破系统边界,端到端去做。为了实现这个效果,我们形成了端到端一体化的治理体系。我们的数据治理工作始于在业务系统这一侧管理业务流程,因为业务流程是产生数据的源头,只有把业务流程管好了,才能知道这个数据究竟是怎么来的,是谁在使用。这样的话未来检查数据、甄别数据质量问题和解决数据质量问题的时候效果就很好,因为可以在业务的根源解决数据质量问题。

我们会把数据血缘图在数据中心、数据中台的加工过程管理好,还会把它在连接在应用端和消费侧,因为应用端的数据溯源是业务逻辑的溯源的过程。通过这种贯穿协同的方式把数据管理起来就是我们协同化的理念的落地。

2.9.智能化:以智能化技术引擎为基础,提速增效

我们认为数据治理智能化的核心在于对于元数据的管理,元数据用于描述所有数据资产。以前都是靠人来梳理这些元数据,未来应该有更加智能的技术像NLP、深度学习和知识图谱去理解和处理这些元数据。有了智能化引擎之后,以前的梳理数据资产、设计数据模型、数据安全分类分级等工作就可以大大降低对人工的依赖。

智能化数据治理的实践思路是基于企业的数据资产构建语料库。我们会计算各种语义的向量、数据的参数和数据特征。以证券为例,一方面是金融行业的数据分类分级标准,另一方面是客户的数据字典。我们会对这两者的语料库进行语义分析,然后判别哪些数据是核心敏感级的,哪些数据应该遵从行业数据标准。

在金融和电网落地智能化数据分类分级的大概过程中,首先是建立语料库和安全特征库,将所有的安全特征词梳理出来,然后通过机器学习根据行业规范找出每个特征词所对应的敏感度等级,最后基于这个特征库对于所有的数据资产进行语义分析,自动去识别它的安全等级。

在这个过程当中,以我们给电网、证券公司做落地的人员和时间投入为例:在人员投入上,如果靠人工做数据安全的定级可能需要几十个人去盘点数据资产。但是通过智能化的方法只需要一个智能化工程师就可以完成数据治理的工作。在时间投入上,如果靠人工梳理两百万个字段的话,需要6000人/天。通过智能化的方式只需要两周左右的时间把算法调校好,然后两到三个小时就可以把两百万个字段分级完,效率的提升是几十倍到百倍的。

这是我们已经实现的一些效果。

未来还会有图谱,以前我们更关注业务知识的图谱,现在还可以基于数据的模型形成数据资产的图谱,还可以利用业务系统的应用模块信息去形成应用系统的图谱。熟悉信息化理论和EA的朋友可能知道这是在打通企业架构,我们是打通应用架构、业务架构和数据架构,既可以让IT人员快速地理解业务;也可以让业务人员从他最熟悉的业务视角入手去理解数据和了解系统;还可以让业务系统的开发和建设人员从他最熟悉应用系统的视角入手了解数据和对应的业务流程、业务知识。

这方面工作也已经在电网落地,我们把电网的一些生产管理的业务流程和流程上面挂接的所有数据资产高度匹配,这样业务人员和数据人员之间就可以有高效的协同工作。

3.构建协同化、智能化的数据治理能力,实现数据资产的质量安全双保险,实现数据资产价值最大化

最后简单总结一下,我们认为现在以银行、证券公司、保险公司为代表的金融机构的数据治理工作已经形成了在实践中探索的趋势,国际上可借鉴的理论越来越少,未来将走出中国独特的数据治理实践道路。

在这个过程当中我们有几点建议:

第一数据资产盘点清楚,形成自己的数据资产目录。

第二应该建立数据认责的体系,让数据相关人员和数据资产可以有效地协同。

第三是数据质量建设不能只停留在中台内部,还要覆盖全域工作环境,面向业务和场景提升全链路的数据质量,才能体现业务价值。

第四是要有数据安全治理体系。数据的安全至关重要,需要搭建一套安全治理体系框架:基于对数据资产的管理实现数据的分类分级,再基于数据的分类分级进行分类保护。

第五是从提速增效的角度要越来越多地使用智能化的技术去开展数据治理的工作,而不是像以前完全依靠人工去梳理。无论是从甲方的角度靠堆人治理数据,还是从乙方的角度卖人/天实现盈利的生意模式都是不可持续的。

今天要分享的内容就是这样,如果有兴趣的话我们可以在希望做更多的交流,谢谢大家。