关于反欺诈，我们在讨论什么？-爱分析

内容来源：2018年11月16日，在Money20/20“全球金融科技创新大会”上，ZRobot CEO乔杨受邀出席科技会场并发表“数字科技驱动的信贷反欺诈技术”主题演讲。爱分析作为合作方，经讲者审阅授权发布。

乔杨：ZRobot CEO，拥有美国爱荷华大学经济学硕士及MBA、芝加哥大学计算机硕士、SAS认证师等多个头衔。前Discover上海全球决策中心风控策略及大数据建模业务负责人。

1、为什么欺诈案层出不穷？

2、相较于美国，中国防范欺诈风险更加迫切？

3、如何提升风险认知？

大家好，今天想和大家分享的主题是“数字科技驱动的信贷反欺诈技术”。

大家会发现，媒体上经常会出现一些像医美中介欺诈、黑中介骗贷、洗钱套现等与欺诈相关的报道，触目惊心。

为什么欺诈案层出不穷？

因为随着中国消费信贷及互联网化的飞速发展，信贷产品种类日益丰富，欺诈的手段也在不断更新进化。

从早期的传统欺诈手段，已经逐步进化为更加先进、更难察觉的新型欺诈手段，比如早期的利诱员工到如今的潜入机构，本人申请到资信包装等。

欺诈分子是一群高智商且勤奋努力的人群，而欺诈防范手段相对滞后，使得欺诈案件层出不穷。

在美国，欺诈损失比例为10%，中国信贷环境更加恶劣，欺诈损失比例为50%甚至更高。因此，在中国，防范欺诈风险更加迫切。

数字科技加持，风险认知升级

对于不同的欺诈类型，我们需要从不同的维度进行考虑。

这里我主要分享三个维度：了解客户、了解员工、了解对手。

欺诈风险的防范必须了解所有交易对象，否则，就会出现疏漏。

比如，如果我们只是了解员工和对手，而不了解客户，就会遗漏客户方的欺诈风险。

如果只了解客户和员工，就会给黑产、团伙欺诈等第三方欺诈以机会。

如上图。右边不同的颜色对应欺诈类型的防范措施，比如建立完善的内控合规制度可以有效防范员工内部欺诈。

但黑产识别是反欺诈领域最为关键的环节，在这一环节，ZRobot进行了大量的尝试和探索。

我们认为，通过生物识别技术、点面结合的复杂网络+机器学习技术（也称之为“漫网技术”）以及欺诈模型识别。

尤其是我们提出的“斑马”扩散技术是三方欺诈的最为有效的防范手段。

什么是“斑马”扩散技术？

“斑马”扩散技术不难理解，它是通过复杂网络的这种关联扩散，基于无监督学习模型以及专家经验，进而把黑户及黑户的关联用户和白户及白户的关联用户区分开来。

“斑马”扩散技术不但可以更有效的识别开放申请中的 “坏”用户，增加欺诈分子突破反欺诈防线的难度，提高作案成本。

而且还可以在营销活动中，覆盖更多的好用户，节约授信成本并提高效率。

欺诈不仅要关注“黑”，更需要服务好“白”。

证明“你”是“你”

反欺诈的核心是证明交易对手是客户本人。

通过轻量级的前端SDK生物探针部署，捕捉用户多维度的生物行为并在云端实时计算判断。

同时结合传统的人脸、指纹及声纹识别，就可以在保障客户体验的同时实现欺诈风险防范的目的。

这种方式优势显著，它无需硬件支持，验证过程无感知，无需用户主动配合，可以进行连续判断，同时，可实现实时风险决策。

1. 由点及面，团伙消灭

随着欺诈手段的不断升级，欺诈的团伙化特征也日益明显，欺诈的上下游产业链也越来越庞大，越来越成熟。

仅仅通过对个人的欺诈风险判断不能防范团伙作案带来的影响和损失。

我们提出的漫网技术有效地解决了这个问题，类似于谷歌提出的Graph Learning，对用户全方位的关联关系进行识别。

包括设备关联、通信关联等，构建用户的关系网络图谱，通过无监督算法将无差别用户划分为不同群组。

同时，针对关联关系强弱进行判断设定权重。

2.探索创新-欺诈模型

与传统信用模型相比，欺诈模型构建存在很大挑战。

首先，基于业务知识及丰富的案件识别能力来判断哪些交易可定性为欺诈交易。

有了稳定的案件库和欺诈数据标签之后，用作目标定义。

特征工程设计的数据量及运算量大，近实时的数据挖掘包括浏览数据、网络行为挖掘、网络借贷、同一时间内的设备环境等。

由于欺诈手段方法更具多样性，而信用风险主要来自还款能力和还款意愿，比较具象。

所以，设计多特征多子模型的融合，模型的更新迭代必须跟得上欺诈环境的变化。

所以，模型部署也要考虑这个问题，比如高频定期的模型效果监控，如何建立自适应模型等。

探索创新-欺诈模型

在电商领域，用户会在页面留下大量触点，比如点击浏览器不同层次的页面，但几乎所有层次页面都会到SKU或单品页面。

所以，我们提出了item2vector概念，类似文本挖掘领域的text2vector或word2vector，将文本分类为向量矩阵。

比如高频低频文本，然后进行情感分析、语义分析等。

所以，我们将电商领域的item抽出，把用户浏览器路径转换为向量形式，就可以用向量来描述一个用户在一个浏览session中对哪些品类或单品产生浏览记录。

由于浏览是有时间顺序的，所以，我们将整个页面浏览时间顺序和向量放入卷积神经网络模型中加工训练特征，通过RNN方式提炼了大量原本通过人类业务经验或其他构件特征方法所不能提炼的特征。

这些特征作为机器学习模型训练特征可大幅提升模型效果。

这是我们对于深度学习方面的突破，有了这一理论基础，以及我们对于整个用户画像标签的深度挖掘能力，就可以把自身积累的经验对外进行赋能。

ZRobot是谁？

ZRobot作为京东金融旗下智能大数据服务平台，成立于2016年11月。

ZRobot致力于利用京东海量高维的数据资源，结合硅谷最先进的数据挖掘技术和模型算法，通过京东金融丰富的金融应用场景，不断打磨提升自身技术实力的同时对外赋能，帮助合作伙伴提升自身的风控实力和运营效率。

目前已为银行、保险、信托、消费金融、融资租赁、小贷公司等金融机构提供各类数据产品支持及智能风控智能营销解决方案，合作机构近300家。

它的核心竞争力主要包括两个层面：

第一、数据源优势明显

作为股东及主要数据源之一，京东金融的数据具备大、厚、动的特点，也就是数据量大，数据维度高，同时具备实时更新的能力。

基于自身多年在电商零售及不同金融场景下的积累，京东金融每天新增的数据量级达到800TB，比一些小型科技公司1年的数据增量还要多。

同时，京东金融已与700多家金融机构合作，共同服务线上线下商户达800万个，个人用户数量超过4亿。可入参模型变量超过60万维，已搭建并成功应用的风险策略超过5000个，风险模型超过500个。

活跃客户65%以上为80后主力消费人群，也是消费及金融领域的核心客户人群。

除了京东金融及京东体系的数据之外，ZRobot也与中国银联、三大运营商等头部数据合作方展开深度合作，加上与腾讯、百度等联手成立的京腾计划、京度计划等，目前可对超过6亿的个人进行准确的风险评估。

有了强大的数据基础，ZRobot可以将数据技术发挥到极致，目前在AI领域实现了一系列突破包括全流程智能风险识别，生物识别，AI模型能力等。

第二、模型算法和特征工程。

特征工程是建模流程中最为重要的环节。

在大数据领域的人，应该比较了解坊间一直流传的一句话：“数据和特征决定了机器学习的上限，模型和算法只是逼近这个上限的手段而已。”

我认为在整个大数据领域的核心壁垒或者说核心竞争力就是数据和特征工程。