摘要:金融场景正负样本极不均衡,需要多模融合的机器学习方法论

芯盾时代蔡准:机器学习在金融领域智能反欺诈中的实践 | 爱分析活动-爱分析ifenxi

近日,爱分析在京举办了2019爱分析·中国人工智能高峰论坛。爱分析邀请了芯盾时代副总裁蔡准进行了题为《机器学习在金融领域智能反欺诈中的实践》的主题演讲。

蔡准提出新时代的安全是以“人”为核心的业务安全,涵盖身份、行为和设备等各类管理。金融场景具有正负样本极不均衡的痛点,所以需要多模融合机器学习演进方法论体系来实现智能反欺诈。

现将蔡准的演讲实录分享如下。

蔡准:各位嘉宾、朋友们,大家上午好!我是来自芯盾时代的蔡准,今天想跟大家分享的是在金融智能反欺诈领域里,使用机器学习相关技术的实践成果。

技术、政策推动行业由信息化向智能化演进

首先,我来介绍一下金融反欺诈的相关背景。我们知道金融从1998年1.0电子金融开始,逐渐去做业务的电子化;到了2.0线上金融,引入更多互联网、移动互联网相关技术;再到3.0智能金融时代,引入了大数据、人工智能等相关技术。

业务方面又向普惠金融发展,覆盖了更多的用户。我们要降低相应的运营成本,更好地进行风险控制,可以看到这些方面必然会促成技术去推动整个金融产业,由信息化向智能化的演进。

这个过程中,我们可以看到政策的大力支持。比如中国人民银行成立金融科技委员会,提出了新一代人工智能发展规划,这都对金融领域AI的使用,提出了一些很好的期望和方向。

银行业风险从传统网络向各类业务快速转移

在这样的大背景下,我们就更加关心反欺诈相关的安全方面。互联网时代,传统的安全更关注的是 “边界”的问题,也就是说我们通过IPS,IDS、防火墙等设备建立了内网和外网的边界,防范黑客或恶意攻击者进入内网区域。

发展到移动互联网时代,业务随时随地都可能发生,我在手机上可以进行转帐,可以购物,可以支付。这个时候网络边界逐渐模糊,不能再以内网、外网的方式区分风险,更多是以人的身份,认证的方式来区分、控制风险。

这就是我们的概念,从传统安全转到现在的业务安全,引入了“身份”的概念,所以说就必然引起“身份”的反欺诈、防篡改等相关的问题。

芯盾时代蔡准:机器学习在金融领域智能反欺诈中的实践 | 爱分析活动-爱分析ifenxi

企业亟待全生命周期的闭环业务安全解决方案

芯盾时代是怎样提供良好的业务安全解决方案呢?我们认为,在业务安全解决方案里要覆盖一个企业对内、对外各方面的安全需求。比如金融领域对外有各个渠道的相应业务交易,对内有员工使用的各个业务系统,员工在使用的业务系统之间的风控的安全保障等等。

只有把对内、对外的安全需求都统一在一起考虑,建立一个全生命周期,覆盖全面的安全解决方案的时候,才可能避免“木桶的短板”,避免发生业务安全问题,这就是我们的大思路。实际上是一个TOC、TOE两个方面结合起来的全生命周期完整解决方案。

我们的解决方案架构,最底层是基于相应的零信任的安全模型,在此之上我们会基于一些安全的核心技术,第一是“端点核心安全”,是我们在手机端的安全保护,安全的存储,设备指纹等等相应的技术。第二是“智能安全大脑”技术,是指数据分析和机器学习的技术,第三个“连续自适应”技术,就是对于风险和相应的认证方式和使用方式进行动态的控制,来达到便捷性和安全性的统一。

核心技术之上,我们可以建立相应的TOC、TOE的解决方案。解决方案里可能有不同的产品,起到不同的作用和角色。例如TOC方案里用多因素认证解决身份的问题,通过行为认证确定“用户做了什么”,或者“应该可以做什么”的问题。通过这样的方案,就可以覆盖不同的行业,包含金融行业和政府、运营商等其他行业的需求。

今天是人工智能论坛,我将主要从金融领域里如何应用人工智能的话题展开。我们可以看到极度抽象的金融业务,终端主要有手机、pad、电脑等之类。中间是业务端,也就是服务端,包括交易平台、信贷平台、业务平台。最后是数据,数据是行为和分析的源泉。

这三个关键结点上,芯盾时代是如何构建完整的解决方案?首先在移动终端侧实行终端威胁态势感知采集设备的信息。服务端我们将相应的数据进行整合转换,最终通过规则引擎和AI引擎,双引擎联动保证风险的识别,把风险识别结果反馈给终端侧,通过自适应的方式去做管控。比如说低风险的可以直接放行,高风险的可以做阻断和再次认证。过程中数据通过人工智能的中台,以数据模型和算法模型的方式不断地迭代,反馈到AI引擎里,这样就会变成一个动态自适应,可以持续与黑产或恶意攻击者进行对抗。

我们可以看到这里面的几个关键点。一个关键点就是反欺诈,或者说规则引擎,需要根据不同的业务场景建立几千条的业务规则和相应的模型,结合机器学习算法,实现实时的交易风险拦截,这是实时服务,要覆盖银行线上的场景,通过各个渠道和各个业务场景的覆盖,实现全业务的防控。

第二个关键点就是AI引擎。AI引擎会把相应的业务数据和行为数据进行整合,最后输出相应的模型,实现模型的部署,模型的实时预测以及模型的发布、管理等等,这样就变成了一个从数据处理、模型训练、模型发布、模型运行监控一体化的AI平台。

第三个关键点是可视化的建模平台或人工智能中台。我们要通过它,以可视化的“拖拉拽”形式,方便客户自主建立或训练一些模型。“拖拉拽”方式避免人工操作可能出现的错误和异常,同时又可以很快地做模型之间的复制或优化,可以建立交易场景盗转盗刷的模型,洗钱的模型,以及营销场景的批量注册等相应的模型

芯盾时代蔡准:机器学习在金融领域智能反欺诈中的实践 | 爱分析活动-爱分析ifenxi

多模融合的机器学习演进方法论体系

前面已经讲了整体的解决方案,各个关键的组成部分,还有一个关键当中的关键,就是如何建设合理有效的机器学习算法。我们知道金融领域有一些行业特性。有银行客户说要一个机器学习模型,准确率要超过99%。这个要求是很容易达到的,为什么?因为银行是一个正负样本严重不均衡的行业,也就是说所有的欺诈事件,根本不足1%,所以返回基本都是正样本,那识别率轻松达到99%。在银行业或者金融反欺诈行业,真正要提高精确率或召回率是非常困难的。

我们最早用有监督的方法,根据银行的案件去实现一些分类。因为银行黑白样本不均衡,样本量不足,导致效果一般都会比较差很难很好地训练这个模型。后来使用无监督的方式,很好地避免了样本不均衡的问题,可以在无样本的方式下用一些监测模型做一些团伙和欺诈样本的识别。

我们发现,如果没有相应业务的基础,没有一些黑灰产业务特征的梳理,很难起到好的效果,后面我们逐渐进化到与业务场景结合的多模型融合方式,基于每个场景,比如说洗钱、盗刷,去建立相应的模型组合,基本上可以在单个场景下实现很好的覆盖。

因为黑灰产会与防护手段进行一个持续的对抗,所以模型不能一成不变,需要引入时间维度,要保证模型随着时间的演进而演进,来达到持续对抗的效果,这样才能保证比较好的模型防护效果。

基于这个理念,芯盾时代在金融反欺诈领域建立了一套模型演进的方法论,覆盖了金融数据从冷到热的过程。

第一个阶段是冷数据阶段以无监督的方式,更多采用异常检测等相应的模型,把可能的欺诈点进行自动的标注。

第二阶段,根据前一阶段无监督算法的识别结果,结合专家的经验、人工的审核,通过案件审理的方式,加上外部的输入,来获得更多有标注的案件样本。

第三阶段,通过迁移学习等相应的方式增强黑样本的效果,也就是说做一些样本的增强,达到足够多的样本以进行模型效果的提升。

最终能达到的效果就是多模型融合的阶段,也就是把时间因素,把多个模型以及场景里,尤其是业务里的核心防护点和核心特征结合起来,最后形成相应的防护方案。

算法方面,芯盾时代现在已经给银行输出了很多成型的算法,且取得了很好的效果。像欺诈的关联图谱的挖掘、信用卡套现、洗钱等等,都是在特定场景下采用不同的算法和算法组合达成的比较好的模型识别效果。

芯盾时代蔡准:机器学习在金融领域智能反欺诈中的实践 | 爱分析活动-爱分析ifenxi

在相应的理论基础上,芯盾时代在银行也进行了大量实践。这里举一个银行的案例,这个银行使用了体系架构中的几个不同类型的产品,包括连续自适应和机器学习的模型,实现了业务层面、设备层面、用户层面等全方位的防护,保证了内部、外部各个痛点的覆盖。比如说内部行为的违规,人员在使用IT系统过程中、做业务使用中的违规,以及身份认证的问题、欺诈事件的防控等等,这些都是通过相应的规则引擎和AI引擎来综合地实现相应的防控。

芯盾时代方案和相应的成果也得到了国内外的一些认可,入选了Gartner中国区人工智能最佳实践报告,中国AI初创公司竞争格局等相应的四个报告,还取得了相应的机构和咨询机构等外部媒体的认可。

在国内我们与很多银行,一起共同通过银监会组织的银行业科技风险管理课题的评审,取得了一类成果、二类成果等比较好的成绩,这也说明了业界对于我们的AI技术在金融反欺诈领域中使用的认可程度,这也是现在我们在金融反欺诈领域的发展方向。

芯盾时代是2015年成立的创业型公司,目前覆盖的客户已经达到了300多个头部客户,200家以上是银行,覆盖了超过2亿的终端,300多亿的次数。芯盾时代的零信任以及业务安全的理念,都取得了比较好的客户认可。

我的演讲就到这里,谢谢大家!