布局金融业,九章云极以数据科学平台切入百亿级市场

作为国内领先的数据科学平台提供商,九章云极深耕金融行业

2018年03月19日
指导 | 李喆 调研 | 李喆 王琦 倪贤豪 撰写 | 倪贤豪
  • 企业服务
  • 大数据
  • 基础平台

布局金融业,九章云极以数据科学平台切入百亿级市场

通过五年的业务积累,九章云极已成为国内领先的数据科学平台提供商。相比于国外厂商的同类产品,九章云极有高性价比、丰富案例等优势。基于对市场空间和行业发展速度的判断,2018年,九章云极将加速拓展银行客户。而其所面临的挑战则是获取标杆客户的能力及不断完善产品化程度。

创立于2013年的九章云极是国内最早最领先的数据科学平台提供商。

创始人方磊,曾是微软云计算平台(Windows Azure)及Bing团队核心成员,负责Azure的数据中心监控系统的开发,并在海量异构数据的采集和实时分析上有自己的独特见解。

截至目前,九章云极公司已超过120人,并在上海、山东、西雅图都设有分公司,其中研人员占60%,并拥有一只超过10人的数据科学家团队,多数技术团队成员拥有服务世界500强企业的开发和咨询服务经历。

2018年,九章云极将重点开拓银行业客户。

从数据预处理到模型构建与训练,九章云极打造数据科学平台

九章云极的大数据平台产品为“DataCanvas”。通过该平台,九章云极帮助客户做数据预处理(DEP),数据的分析和模型构建(APS),为模型的运行提供实时计算的环境(RT),并帮助模型实现生产化,最终落到应用场景中去。

DEP数据管理平台,提供数据集成、数据建模、数据质量探查以及数据下发等能力,帮助企业转换原始数据并管理转换后的数据,从而提供高质量、高价值数据。

APS是面向数据科学团队的一站式数据分析平台,集数据准备、算法实现、机器学习和模型开发于一体,能够帮助企业快速构建数据分析应用。其功能模块可分为三大类:

第一,业务分析模板,支持自定义拖拽模块构建大数据分析流程。

第二,数据处理模块,构成常用数据和特征处理模块。

第三,机器学习模块,提供机器学习算法模型和行业典型模型。

布局金融业,九章云极以数据科学平台切入百亿级市场

RT,通常情况下指实时计算,而在DataCanvas平台下,RT本质上是一个运行模型的环境,同时也为最终模型的生产化提供帮助。针对各类场景的模型通过APS完成构建,需要在一个实时计算的环境下运行。九章云极通过“流处理引擎+内存数据库+模型加载管理”的方式,为模型的正常运行提供了理想环境,使分析结果能在实际业务中得到运用。

当前,DataCanvas平台在银行业的适用场景主要为营销、运营、风控等三大方向。营销上,适用场景主要是理财推荐等。运营则更多在网点运营上,如现金储备优化(ATM加钞等)。风控上,银行通常自有一套风控模型,DataCanvas能帮助客户将这套模型落实到实时计算的环境中去,达到实时监控等效果。具体的应用场景有ATM取现监控、小贷风险控制等。

产品化程度还有提升空间

如上所述,DataCanvas作为数据科学平台,已基本实现协助客户完成模型构建和训练的目的。而在后续的产品迭代中,产品化的提高会是发展方向之一。

目前DataCanvas平台在模型构建方面已达到高度产品化(APS),但在前端的数据清洗、转换和加载(DEP)和后端的分析结果产品化(RT)上相对产品化程度较低。

由于各类银行客户的信息化建设进度不同,导致数据清洗、转换和加载的产品化率较低,所以九章云极在对接客户业务系统时,需在ETL等方面有更多交互。

分析结果产品化部分的产品化率较低,则是因为模型在实时计算环境下完成训练、评估后,如何在实时计算环境下,将分析结果(模型)运用在实际业务中,这部分所需的工作量是比较重的。

两者相较,分析结果产品化的产品化提升难度相对较低,因为业务系统总体来说,是一个有着特定步骤或处理办法的流程,训练模型得出更匹配客户需求的参数,更多的是通过输入尽量多的高质量训练数据来达到。随着九章云极对客户业务的理解不断加深,这部分的产品化程度会不断提高。

而在数据清洗、转换和加载方面,实现高度产品化或自动化,还是有着较大难度,目前更多还是通过建数据集市或者数据湖的方式提供可供分析人员使用的高质量数据。

着重布局金融领域,加强标杆客户获取是未来方向

在客群定位上,九章云极倾向于大客户。在重点布局的金融领域,其对大客户的定义主要是国有大型商业银行、股份制银行、城商行、大型保险证券公司等客户,至于农商行、农村信用社等则属于长尾客户之列。

由于九章云极所提供的DataCanvas数据科学平台,,主要是在数采、模型构建和实时计算环境下的运行为客户提供帮助。因此,客户需要具备数据分析能力,只需要不到10人的数据分析团队便可确保对于DataCanvas的高效运用。而目前定位的银行业大客户,通常都具备此等规模的团队。

从市场切入点来看,考虑到九章云极主要输出的是分析结果及其运用,与之相对的是BI和分析软件市场。根据Gartner的预测,2017年全球BI和分析软件市场规模将达到183亿美元,预计到2020年,该数字将达到228亿美元。作为BI领域全球增速最快的国家之一,中国市场2017年的规模保守估计可达到20.1亿美元左右,折合人民币接近130亿元。

细数九章云极现有客户,银行客户已占九章云极总客户数的70%,其中多数为城商行。股份制银行或更大体量的银行获取还略有不足。未来能否在目标领域占据更多的份额,还取决于其如何增强在银行业的标杆客户获取能力。

技术和客群较有优势

技术:创始团队曾任职于Microsoft等公司,负责Azure、Bing等项目,有着丰富的分布式系统搭建及数据分析经验。

产品:所提供数据科学平台产品覆盖数据预处理与存储、实时处理与批处理、数据分析等。

产品化率还有提升空间,目前在数据预处理、训练模型获得匹配业务流程的参数等方面还需较多的数据分析人员介入。

客群:定位客群为金融领域,例如股份制银行、城商行、农商行、大型保险证券公司等。所服务市场规模在百亿级以上,客单价在百万级,未来成长性较好。

获客:已有10多人的销售团队,均有多年IT行业从业经验。目前已有客户主要为部分股份制银行和城市商业银行,2018年重点加强标杆客户的获取能力

场景:银行业场景可分为营销、运营、风控等三大领域,如理财推荐、小贷风险控制等。九章云极对于场景的理解主要作用在使得模型与实际业务很好匹配。即完成模型训练并使其参数匹配实际业务的需要。现阶段还需要投入较多时间和分析人员达成这一目的。场景理解能力还需继续增强。

布局金融业,九章云极以数据科学平台切入百亿级市场

近期,爱分析专访了九章云极创始人方磊,现将部分内容分享如下。

布局金融业,以数据科学平台服务客户

爱分析:除了产品功能外,DataCanvas作为企业级产品还需具备什么条件?

方磊:产品的安全性和可靠性不可或缺,这是基本条件。但我认为最重要的还是配合客户的模式,与客户进行深度的合作,提高服务水平。

爱分析:DataCanvas的应用场景有哪些?

方磊:必须是规模比较大的客户,而且要具有10人以上的数据分析团队。比如智慧网点的应用,可以分析ATM的使用率,或者VTM自主开卡机的使用率等场景。根据客户需求不同,提供平台或者具体应用。

很多时候,我们在建模方法上可能更擅长,但在业务上绝对是客户比我们掌握的更多。

爱分析:目前产品应用的行业主要有哪些?

方磊:之前我们涉足过比较多的行业,现在主要集中在金融,2018年集中在银行领域,目标是规模比较大的银行。

爱分析:相比于同类竞品,DataCanvas的优势是什么?

方磊:主要是实时性和建模。RT是一个流处理引擎+内存数据库+模型加载管理的方式,这部分也是很难的。还有就是从用户习惯切入来说,用户在APS产品的使用中,会形成一定的用户依赖。RT也是我们的一个壁垒。

爱分析:ETL在DataCanvas中占据了多少工作量?

方磊:虽然很多大数据公司看不上ETL,但实际上ETL可以占据80%的工作量。比如,银行系统要调用某客户的银行流水,但实际上他的多个账户并不在一个数据库,有储蓄卡、信用卡、外汇、手机银行等等账户,且在数据库中的ID是不一样的,要做匹配工作量还是很大的。

爱分析:DataCanvas能否处理日志等半结构化数据?

方磊:目前我们给银行做的分析平台,就有日志处理的模块。日志数据大量来自于系统运维数据。还有部分日志数据是跟业务相关的。

爱分析:与银行客户合作的过程是怎样的?

方磊:比较浅的合作一般是银行来做测试,与原来的数据库分析软件进行对比,然后银行来选择。关系比较好的合作伙伴,我们会根据他们的具体需求,与客户人员进行合作,将应用模块进行固化。

爱分析:未来有无考虑向集成商转型?

方磊:集成商是需要很大的人力投入的,需要在客户现场进行维护,这主要还是业务模式的区别,我们一般会选择和客户比较熟悉的集成商进行合作,目前来说,我们并不适合这种模式。

企业面临数据化变革,数据服务大有可为

爱分析:您对于数据服务的发展怎么看?

方磊:传统上认为,数据服务是一个金字塔结构,底层是Database,中间层的产品包括SAS和IBM的SPSS等数据分析类产品,第三层则是应用层。

现在看来,这一结构正在受到侵蚀,逐渐由金字塔结构往纺锤形结构转变。底层的数据类型和上层的应用都呈现碎片化的趋势,而中间分析层变得更厚。

中间分析层开始由原本SAS、SPSS等单机版程序转向分布式计算,并且由报表等较简单需求往模型构建,进而与业务结合的方向转化。还有就是在线分析的运用越发普遍。

总的来说,以前我们认为数据是交易的产物。但现在我们更认同交易产生数据,数据提炼模型,进而反过来影响交易的闭环。

爱分析:对于BI等产品的需求,会否被其他数据服务的形式取代?

方磊:对BI的需求还会存在,但实施形式会有两类变化趋势。一类是建立数据仓库,按照主题将报表分类;一类是直接ETL,建立报表集市。

爱分析:数据服务各环节技术的渗透率如何?

方磊:像Hadoop这样的底层应用,在头部客户中几乎达到了80%以上,分析层次的应用基本上处于刚起步的阶段,不到10%,真正应用在业务当中可能更少。

爱分析:数据服务领域有无可能出现Oracle和SAP等量级的企业?

方磊:这个要看时代背景,Oracle和SAP正赶上很多企业的信息化建设,抓到了发展机遇。现在的企业正面临数据化的变革,肯定会出现一批数据分析服务的公司,也肯定会有公司最终走出来。

爱分析:潜在竞争对手方面,BAT等大型互联网公司会否跟银行做排他性合作?

方磊:BAT做的更多的是数据层面的合作,在数据分析层面提供的帮助很少。一般这种大型互联网公司的数据分析系统跟自身的业务绑定的比较紧,目的是让数据分析帮助实现自身的收入,无法做成服务客户的产品,而我们的产品与客户的业务绑定比较紧。

爱分析:数据服务领域,客户招标有什么样的形式?

方磊:这要看客户的运作模式,项目有以软件为主,也有以硬件为主的,也有直接招标分析平台的。

招投标过程中,我们看到的大部分都是传统集成商,并看不到最终的厂商。很多客户为了安全,基本上都是和集成商对接。