金融

诚安聚立总裁刘志军:对标三大征信局与FICO,坚持风控能力输出

不求因果,但要相关

2017年08月08日
调研 | 李喆 青川 撰写 | 青川
  • 金融科技
  • 风控
  • 大数据
  • 消费金融
  • 金融

随着监管趋紧、行业竞争加剧,P2P、消费金融最佳创业期已过,行业进入精耕细作阶段。现阶段无论传统银行还是消费金融机构,对大数据营销、大数据风控等金融科技都愈加重视,所以围绕金融科技的创业也就水到渠成。

诚安聚立便是一家2B的金融科技公司,主要从事风控环节的技术输出,包含数据采集、数据清洗、大数据建模等。公司成立于2016年9月,迄今尚不足一年,成立之初便获得凯撒世嘉的天使投资。

诚安聚立创始人&总裁刘志军是风控领域专家,曾任Capital One银行统计分析部资深总监,Equifax首席统计学家,密西西比大学统计学副教授,此外,刘志军也曾任马上消费金融首席数据官,对国外征信、风控发展历程和国内发展现状认知深刻。

不碰业务,坚持技术输出

不导流、不放贷、不兜底是诚安聚立的基本原则,作为第三方技术服务公司,不触碰业务才能保持中立性,抵消机构用户的质疑。数据采集、数据处理、模型搭建是风控中最重要的环节,诚安聚立正在搭建一站式云审批平台,为机构用户提供信审服务。

信贷数据可分为三类,第一类是身份数据,用于确认用户身份;第二类是统计学数据,例如性别等对还款行为有影响的数据;第三类是行为数据,比如征信数据、电商数据、通话行为等。

数据采集方面,诚安聚立本身覆盖了很多第三方数据源,在获得用户授权后,可以从第三方数据源获取数据,对于第三方数据源没有覆盖的数据,也会通过网络爬取的方式获得,比如公积金、通话记录等数据。

但诚安聚立本身不会建用户信息数据库,而是在合作方委托的情况下去做数据查询。举个例子,当合作方需要用户的银联数据时,诚安聚立会到银联内部查询用户的流水,将其标签化为模型中所需的变量。

数据处理方面,美国由三大征信局完成,国内则缺乏相应的机构和统一的处理标准。所以国内金融机构接入的数据是完全没有处理过的,除了是与非的判断性数据,其他的都需要机构重新结构化、格式化,目前诚安聚立对主要数据源完成了这项工作。

另外,涉及到人的数据通常噪音比较大,如果没有数据处理能力,无关变量会影响到风控结果且难以回溯,所以去噪、筛选相关变量的能力尤为重要。

模型建立上,诚安聚立集中在反欺诈和信用风险管理两个环节,通过机器学习建模。传统风险模型是在计算能力受到限制的情况下的基于强假定的风险评估方法,随着技术的演进,越来越多的机构开始建立机器学习模型,美国三大征信局、Capital One十多年前便通过机器学习建模,国内一些金融机构和Fintech创业公司也在做人工智能风控。

根据合作方的需求,诚安聚立可以提供全流程的服务,也可以提供单独提供每一模块的服务。

从现金贷企业做起,目标客户是银行

大数据风控适用于2C的信用贷款,所以银行、P2P、现金贷等企业都是诚安聚立的目标用户。

诚安聚立在今年1月份正式开展业务,迄今仅半年,服务的机构数尚不多,大部分对接机构还处于业务验证阶段,合作机构切一部分流量到诚安聚立,通过对比违约情况确定是否采用诚安聚立的服务。

前期诚安聚立用户以现金贷企业为主,原因是获取现金贷企业门槛相对较低,对接周期较短。通过服务现金贷企业,诚安聚立可以较快地实现营收,预期今年能做到盈亏平衡。

由于采用按单量收费的方式,对诚安聚立来说,业务量巨大的银行才是最有价值的用户,目前诚安聚立正在与渤海银行以及一些城商行建立合作,为其信用卡以及消费分期业务提供信审。

根据用户要求不同,诚安聚立服务方式也有差别。银行机构对数据安全性要求较高,数据、模型服务均需本地部署;现金贷公司本身对云服务接受度较高,诚安聚立对其服务也建立在公有云上。

我们认为风控技术输出会成为新金融的下一发力点,从发展思路上看,既有从业务开始做,进而将自有风控能力输出的公司,也有诚安聚立、氪信这类不做业务,纯技术输出的公司。

前者的优势是模型经过自有业务验证,具有一定的说服力,但既做运动员,又做裁判员很难让合作方放心;相比之下,诚安聚立只要风控能力得到验证,更容易被接受。

行业风口并不会太久,一旦头部标杆用户被抢占,再服务尾部用户意义有限,所以获客能力尤为重要。行业内已有同类型公司正在抢占标杆客户,诚安聚立需要加强其获客能力。

此外,诚安聚立核心团队有多年消费信贷领域风控经验,首席风控官、首席数据官均出身Capital One,业务经验丰富。

近日,爱分析对诚安聚立创始人&总裁刘志军进行了访谈,现选取部分内容如下,供读者参考。

爱分析:诚安聚立做风控输出有何优势?

刘志军:我觉得有三点优势,第一是对行业的理解,我们团队的主要人员——业务、技术、数据、模型负责人,都有深厚的行业经验,能够理解业务的本质,然后运用大数据、模型来做决策,这是我们的一个优势。

第二是技术能力,我们把目前大数据相关的IT技术扫了一遍,找出其中可以用到我们业务上的技术,包括Hadoop、Spark、MongoDB等,用最新技术把数据流程、业务流程搞起来。

第三是数据和模型,计算机技术发展使得建模方法突破了很多传统假设,计算能力的增强使得建模不需要基于很强的理论假定,算法可以通过优化来做。比如用X、Y轴坐标和用极坐标的函数结果简单程度就不一样,通过技术和经验上的优势,我们可以不拘泥于一种方式来解决问题。

爱分析:为何只做技术,不做业务?

刘志军:我在美国将近30年,从业经验让我觉得,做风控技术输出要完全由第三方的身份,不能有任何利益上的冲突。别人客户申请资料拿过来,客户的身份证号、电话我都有记录,所以我们必须不放贷、不导流,这样才能保持中立性。

还有,我们不做兜底,兜底没有放贷那么严重的利益冲突,但至少有一些。而且我们是一家轻资产公司,如果要做兜底的话,服务一家一年放一百个亿的企业,我要准备十个亿的资本金,这个模式不是这么玩的。

关于数据

爱分析:哪些数据效果最好?

刘志军:直接跟征信有关的行为数据是最好的,但目前只有银行、持牌消费金融公司能拿到央行的征信数据,别的机构只能靠替代性的行为数据,有的相关性强,有的相关性弱。完全取代是不可能的,但比没有好很多。

比如我们在美国试过,信用卡交易行为跟征信报告关联性就很强,预测信用风险就很接近。但是比较麻烦的是只有卡信息没有人信息,此外中国还有微信、支付宝多种支付渠道,因此客户交易信息会缺失。

爱分析:社交网络数据的使用效果如何?

刘志军:社交网络的数据要慎重使用,因为在美国用的不是特别好。信贷行为是比较严肃的行为,反映的是借钱还钱的行为,像交易数据、通话数据都能反映用户比较真实的活动特征。但社交网络就不一定,你不确定他在里面扮演的角色是否真实。

另外一个大问题是,社交网络数据是没法验证的,不像征信、电商数据,出错了肯定会有人纠正,觉得吃亏了的人肯定要把他纠正过来,但社交网络数据出不出错,你是完全不知道的。

爱分析:会使用运营商的数据?

刘志军:我们跟联动优势聊过,他们会整一些数据,此外我们也会使用用户授权爬取得运营商数据。但真正比较全面的数据还是在各省运营商,我们目前没有计划单独跑各省。

我们合作的银行希望能用运营商数据做营销,我们可以提供一些帮助,在筛选客户时不仅考虑转化率,同时做一些风险控制,这样不仅转化率高,通过率还高,效率更高。

爱分析:合作的银行或者现金贷公司会提供一部分数据吗?

刘志军:没有。这里面有个误区,大家认为金融机构在做放贷就有会很多数据,他们有的无非就是客户的身份信息、客户的记录、还款表现数据,别的也没有了。还款表现数据很重要,我们可以据此训练模型,但问题是他们审批时查了哪些数据,如果没有的话很难回溯。只有Y,没有X,依旧没有办法训练模型。

此外,银行老说自己内部有多少数据,其实都是存量的,除非做交叉营销,否则没有太多意义。像工行这类银行,客户基础很大,内部数据处理好做交叉销售,储蓄客户变信贷客户是有意义的,但像城商户本身客户就没多少,赶紧去外部获客才有意义。

关于模型

爱分析:模型准确度有什么评价标准吗?

刘志军:好多类标准,一个是简单的统计量标准,大家常用KS值。更重要的是业务标准,用新的模型做决策,跟原来的流程比较,同样的风险层级,谁的通过率高;或者同样的通过率谁的风险高,更好的是同样的通过率谁贡献的价值大,挣钱多。

爱分析:一个模型的生命周期大约多久?

刘志军:模型和模型差异很大,很多因素包括建模方法、客户群体、外部环境、产品都会影响模型的生命周期。中国发展这么快,外部环境变化很快,一个模型的寿命比美国要短很多。我们会设定很多指标监控模型,如何适用度降低很多,就会考虑是不是重建模型。

爱分析:机器学习算法是一个黑盒,是不是很难解释风控结果?

刘志军:不是通过严格试验设计获取的数据,仅仅靠观察数据是无法科学地解释模型的。最简单的统计模型也很难解释,只是大家觉得好解释。

举个简单例子,我们曾建模分析小镇的犯罪率,最后发现ATM机数量跟犯罪率相关度很大。如果ATM机数量多,犯罪率低,否则犯罪率就高。这个怎么解释?显然不是因果关系,如果是因果关系的话让银行多设几台ATM机就能降低犯罪率了,这个只能是相关性关系。

我们建模型是一样的,对风险预测,就是通过能观察到的数据对观察不到结果的做一个预判,统计上只有这类变量跟我要预测的东西关联度很强就可以了。运用到信贷领域,我们不管征信数据还是其他数据跟坏账是不是因果关系,只要关联性特别强就可以了。

爱分析:银行对坏账要求更高,风险划分会更细致?

刘志军:其实就是后期模型的设置、应用上更精细。比如我有模型分,还有别的信息,现金贷简单粗暴做个决策就可以了,但银行就要定信用卡额度,额度太高,风险跟额度不适配,增加了风险;额度太低用户就不用了,要判断最合适的额度在哪里。

爱分析:银行和现金贷用户的数据处理难度会有不同?

刘志军:差不太多,现金贷虽然对风控要求低,但要处理的数据维度更大,因为要处理的信息更广泛,其实维度不会减少。

爱分析:银行对审核时间会有要求吗?

刘志军:绝对会有,只是现在模式没做成这样,一方面是监管有要求,得面签;另一方面也有银行固有思维的问题。目前技术实现上完全没有问题,还是思维上的障碍。

关于运营

爱分析:主要成本有哪些,会包括数据采集成本么?

刘志军:数据有的时候是我们采集,有的时候是用户收集,但成本都是客户承担。我们的成本其实就是建模、维护模型的人力成本,租用云服务的成本,基本没有别的。

爱分析:所以会边际成本递减?

刘志军:对,规模效应非常明显。我们要做定制化模型,根据每个上线客户的产品做配置,配置完了就可以上SaaS模式。申请单量的增加对我们没有任何影响,同一个客户同一个产品,它的单量一万笔跟一百万笔我们付出的成本差不多。只是客户数增加的情况下我们的人力要增加,未来人力相比目前最多翻一倍。

爱分析:目前团队规模如何?

刘志军:80多人,包括技术、数据、产品、项目管理、商务BD等。其中技术是最大的团队,数据是第二大的团队,未来人力增长主要是数据部分的人数。