数据智能

以智能建模切入金融行业,易明将改变数据分析业务模式

数据智能分析预测需求也随之兴起,尤其是在金融行业

2018年07月09日
调研 | 李喆 崔可家 撰写 | 崔可家
  • 数据智能

随着各行业对数据的重视程度不断提升,数据智能分析预测需求也随之兴起,尤其是在金融行业。

当前市场上,机器学习、深度学习的开源软件包比比皆是,但由于在选择以及调试开源包时需要大量业务知识以及统计知识,真正能够将这些工具利用好,并解决企业需求的专业建模人员,数量非常之少。

清数易明成立于2017年,由清数D-LAB孵化,是一家大数据智能建模公司。正是看到了市场对于智能建模的需求,投入一年时间研发和调试,推出了易明智能建模工具,主要针对金融行业,帮助客户实现建模自动化、智能化。

 
易明智能建模工具提供从数据输入到模型输出的自动化过程。用户只需要将数据导入软件中,智能建模工具将自动确定数据类型,并进行数据预处理,智能选择优化模型及其参数,用户最终可得到最优模型。

清数易明创始人蒋步星认为,利用易明智能建模工具所得到的模型,当前能够达到中高级建模人员水平,基本可以满足客户要求。

现阶段,易明智能建模工具主要客群是金融业,包括保险、银行以及互联网金融公司,应用场景集中在客户营销、信贷违约预测、保险定价策略以及反欺诈等。

收费层面,易明采用软件License方式,产品化程度高。由于商业化运作从今年3月份才开始,所以目前还是以试用客户为主。

蒋步星是清数易明主要创始人,也是润乾软件创始人,清华大学计算机硕士,软件工程能力强,主要负责清数易明的软件实现。此外,清数易明特别顾问王中庆教授,为佛罗里达州立大学数据挖掘中心主任,具有深厚的统计学知识,负责为易明智能建模工具提供知识指导。

 
近期,爱分析对清数易明创始人蒋步星进行了访谈,就清数易明产品、经营策略,以及数据科学平台行业发展趋势做了深入交流,现将部分内容分享如下。

利用开源算法,融入建模经验,提高建模效率

爱分析:商业化之前,易明智能建模工具研发周期有多长?

蒋步星:2016年下半年开始研发,经过半年时间,2017年4月份做出了原始版本,之后选择了3-4个场景去做验证调试工作。2017年10月份左右,软件的性能和稳定性就达到了一个比较好的水平。

爱分析:产品是完全自研的?

蒋步星:在数据预处理上,我们是完全自研的;在数据挖掘算法上,利用了开源包来完成,但是会根据自身的统计学知识,对其中一些算法参数进行修改,以达到更好的效果。之后,我们也会逐渐自己重写这些算法。

爱分析:与数据挖掘算法开源包相比,使用易明智能建模工具有什么区别?

蒋步星:首先,利用一个同样的开源包,如果你自身没有统计学知识,那就无法根据数据来进行参数调整,而我们的软件就可以自动完成这一步,不需要有统计学背景,所以可以跑出更好的效果。

其次,针对不同的数据,需要选择合适的模型算法,利用开源包很难覆盖所有可能,或者需要很长时间,易明建模软件就可以更全面的覆盖模型以及节省时间。

最后,我们会根据统计知识,对数据进行预处理,使其能够更好的在模型中训练。

爱分析:怎么看待这款产品的核心竞争力?

蒋步星:我们的核心技术就是数据处理以及模型选择等方面经验,这些就让我们整个软件不单单是一个机器学习开源包的组合了。

爱分析:目前,您认为智能建模工具有哪些实现途径?

蒋步星:主要有两种方式,一种是基于经验规则的,就是说在软件开发过程中,会加入一些已经有的建模经验,比如原始数据的处理方式、模型的筛选等等,这种方式的好处就是可以极大提高建模效率,也是我们易明智能建模工具的实现方式。

另一种方式是,不预先设定规则,通过深度学习算法进行暴力搜索,这也是现在业界比较流行的方式。

至于哪种模式比较好,现在来看的话,在金融场景中,前者的效果还是相对比较好,但整个业界都非常重视后者的研究,目前还看不出来哪种是未来的发展方向。

智能建模效果达到人工建模水平,未来将推出集群版本

爱分析:易明智能建模工具的产品定位是怎样的?

蒋步星:我们的期望是在一定程度上能够取代SAS部分功能,但是现在产品还是处在初级阶段,只能做预测模型,后面还有很长的路要走。

爱分析:具体有哪些特点?

蒋步星:首先,降低了对于建模人员的要求,原来人工建模方式中,建模人员需要理解业务模式以及相关统计知识,现在通过我们这个智能建模软件,就可以极大的降低对于建模人员统计知识的要求。

其次,节省时间成本,之前人工建模通常需要2-3个月,现在有了自动建模工具,建模时间可以缩短到几个小时。

最后,改变了业务模式,之前人工建模的方式需要大量人力成本来配合,不可能针对不同业务或者不同地区建立针对性模型,现在通过智能建模软件,就可以实现这些事情,更好的为客户来服务。

爱分析:一个完整的数据挖掘项目的周期是多长时间?

蒋步星:对于一个完整的数据挖掘项目,可能70%时间都会花在数据预处理阶段,建模工作可能只需要占30%。所以现在我们可以通过将易明智能建模工具整合到润乾产品线中,进一步提升数据挖掘项目的效率。

爱分析:易明智能建模工具所需要的数据量是多少?

蒋步星:当前推出的版本还是单机版,一般来说,几万到几百万的规模是比较合适的。目前正在研发大数据版本,计划年内能发布。

爱分析:使用易明建模工具是否需要专业知识?

蒋步星:原则上只需要告诉软件目标变量是哪个就可以了。当然,如果能根据具体业务给出一些衍生变量,比如通过日期判断是否是节假日等,会使得最后的模型效果会更好。

爱分析:与传统的人工建模模型有何差距?

蒋步星:利用易明智能建模工具所得到的模型,基本能达到人工建模的平均水平,但是与最顶尖的建模人员还是有一些差距。这其中的原因就是,顶尖建模人员对于模型以及参数的理解会更深,可以根据业务场景得到更精细的模型。

爱分析:通过易明智能建模工具所得到模型,是否会随着数据不断更新而变化?

蒋步星:我们管这个叫模型反馈,就是利用新的数据以及之前运行过程中积累的信息来调整现有模型,现在我们在做一些实验来验证,还没有添加到产品中。

爱分析:今后,易明是否会推出集群版的建模软件?

蒋步星:是的,我们正在做这方面工作,就是上面说的大数据版本,会使用分布式技术,实现集群版本,这样就可以利用更多的数据来训练模型。

爱分析:易明是否会推出云服务?

蒋步星:当客户的数据没有很强的敏感性时,我们会考虑云服务。但金融行业客户对数据隐私性都非常敏感,我们做验证都必须到用户现场去做,用户基本上不可能把数据移到云上,所以云服务目前还不是一种非常合适的方式。

爱分析:未来易明的产品是否会向数据存储、数据展示等方向延伸?

蒋步星:我觉得都是有可能的,当然整个产品应该还是一个比较开放的态度,可以跟其他产品进行集成,因为一个软件不可能在所有方面都能做到最好。

商业化初期,以金融行业为切入点

爱分析:商业化是从什么时候开始的?

蒋步星:产品商业化大概是从今年3月份开始,时间很短,现在还是以试用客户为主。

爱分析:销售方式是怎样的?

蒋步星:现在我们是通过软件license的方式进行销售,以及部分技术支持服务,还没有考虑其他解决方案服务,整个项目现在是通过了技术验证,在进行商业验证。

爱分析:主要销售对象是甲方本身,还是集成商?

蒋步星:应该还是直接面向甲方的,因为这样甲方才能直接体会到它的业务价值,但是在之后的上线实施过程中,可能还是需要集成商来配合。

爱分析:目前,易明智能建模工具是怎样集成到银行业务系统的?

蒋步星:主要还在独立建模阶段,还没有集成到银行业务系统中上线案例,因为这类智能建模工具还是非常新的软件产品,银行之前没有相关系统来集成,这也就是我说的未来这类工具有可能会改变银行业务模式,可能会开创出新的应用方式。

爱分析:为什么选择金融行业作为切入点?

蒋步星:我们其实在各个行业都有过调研,最后选择了金融行业,主要是因为以下几个原因。

第一,金融行业有丰富的历史数据。因为金融行业在数据挖掘领域这一块本身就投入了很多,所以有很多数据可以利用,我们也曾经尝试过工业,但是由于数据缺失太严重,最后效果很差。

第二,金融行业的大部分数据都是经过整理规范化的。在建模之前,数据规范化需要进行大量工作,而金融业已经把这个过程完成了,节省了很多时间。

第三,金融行业对于建模准确程度有更好的认识。金融业之前利用SAS进行人工建模时,已经对于模型准确率有大概判断,对于我们软件的效果就会有更加明确的判断,方便对比。