摘要:下一代数仓会是怎样

Apache顶级项目创始团队,偶数科技从数仓切入人工智能领域 | 爱分析访谈-ifenxi

调研 | 李喆 崔可家

撰写 | 崔可家

20188月,Apache HAWQ毕业为顶级项目,成为首个由国人主导研发的Apache数据库顶级项目。HAWQ的创始人常雷博士,在2016年底创办偶数科技,推出了企业版新一代云数据仓库OushuDB,开始商业化运营。

Apache顶级项目创始团队,偶数科技从数仓切入人工智能领域 | 爱分析访谈-ifenxi

数仓架构演进,P2P架构解决跨数据中心应用

数据库按照使用场景可以分为OLAPOLTP两大类,在数据量较小时,传统OracleDB2可以满足在两种场景下的使用需求,这也是第一代共享存储架构的数仓。但是随着数据量的增加,OracleDB2等传统数据库较差的可扩展性不能满足OLAP场景下数据的存储和分析需求。

这时第二代TeradataGreenplumMPP架构数仓诞生,提升了数仓的可扩展性(可至上百节点),同时由于可以使用X86服务器,可以大幅降低硬件成本。

虽然MPP架构提升了可扩展性,但是对于弹性伸缩、秒级扩容和超大规模集群(几千节点级别)等问题依旧没有很好的解决,以HAWQ为代表的第三代数据仓库应运而生。将计算、存储分离,并融合了Hadoop高可扩展性的特点,实现了弹性伸缩以及大规模节点部署的特性。

OushuDB是更加先进的一代云数仓架构,虽同为偶数科技的产品,基于HAWQ开发但不同于HAWQ,其内部采用了Peer-to-Peer架构,业界首次解决了大数据量下跨数据中心的数据存储和分析问题,并设计了新一代SIMD执行器,性能比传统数仓快大约5-10倍,对于金融等行业的吸引力进一步增强。

从数据仓库到人工智能向上层应用延伸

Apache顶级项目创始团队,偶数科技从数仓切入人工智能领域 | 爱分析访谈-ifenxi

2018年,偶数科技推出了Oushu
Littleboy
人工智能系统和Oushu Lava人工智能云平台,开始切入公有云以及AI市场。

传统的数据仓库中通常会内置In-Database机器学习库,但对于使用者的AI知识水平要求较高。因此,为了降低使用门槛,偶数科技推出了Littleboy人工智能系统,由于使用了AutoML技术,可以帮助使用者自动选择模型并调参,完成AI模型的落地。

为方便企业使用,偶数科技还和微软合作推出了Lava人工智能云平台,集成了OushuDBLittleboy两大模块,为企业提供更加易于管理的云数据仓库服务,减少了企业在大数据量下运营维护以及硬件的开支。

OLAP市场前景广阔,偶数科技场景理解积累逐步提升

根据爱分析判断,国内数据库市场超过百亿,其中OLTPOLAP各占据大约一半,这部分也是数据库市场的存量市场。但随着大数据和AI应用的不断成熟,数据仓库的需求不断增加,是未来的主要增量市场。

目前,数据分析和AI市场巨大,玩家众多,但是各家选择的切入方向各不相同。

在数据分析、AI市场中,大多数厂商都选择了从上层应用这条技术要求较低的路线,而偶数科技选择的是从底层数仓开始,夯实基础,业务逐渐向上层延伸。

在技术层面,因为涉及到底层的数仓开发,对于技术能力的要求较高,有较高的进入壁垒;在商业层面,从底层数据仓库出发,可以提供给客户整套解决方案,减少不同系统之间的兼容性问题。

目前,偶数科技会协助客户进行上层应用的开发,但这部分服务也会增加部署人力成本。

获标杆客户认可,生态建设利用已有开源社区

由于偶数科技的成立时间较短,正式商业化仅不到一年,所以目前的重点是放在行业标杆客户的拓展上,现已服务包括国家电网、海尔、中兴、深圳国税等标杆客户在内的20余家客户,分布在电力、金融、制造业、运营商等行业中。并且已经应用在如电网调度等核心场景中,产品的稳定性以及性能获得了客户的认可。

目前,OushuDB的产品化率较高,并且由于支持SQL以及配置了ETL等工具,数仓的部署实施时间会相对较短,较轻的产品使得在偶数科技约50人团队中,部署团队人数仅为个位数,大部分为研发人员。

生态方面,OushuDBHAWQGreenplum完全兼容,因此在外围的生态建设上可以很好的利用两者已有的开源社区。

Apache顶级项目创始团队,偶数科技从数仓切入人工智能领域 | 爱分析访谈-ifenxi

近期,爱分析对偶数科技创始人常雷博士进行了访谈,围绕偶数科技的产品、业务以及数据库行业发展进行了深入的交流,现将部分精彩内容分享。

数仓采用全新架构,推出人工智能新产品

爱分析:偶数科技的产品有哪些?

常雷:数据仓库产品包括开源版本的Apache HAWQ和企业版本的新一代云数据仓库OushuDB;还有自动化机器学习系统Oushu Littleboy以及人工智能云平台Oushu Lava

爱分析:GreenplumHAWQ的区别?

常雷:Greenplum属于第二代MPP架构类型的数据仓库,HAWQ属于第三代架构,是基于Greenplum,架构上是存储、计算分离的,并且融合了Hadoop高可扩展性的优点。因为传统的MPP架构存储和计算是紧耦合的。

爱分析:OushuDBHAWQ的区别?

常雷:OushuDB属于更加先进的Peer-to-Peer架构,这种松散耦合架构是非常适合广域网场景的,因此在大数据量跨数据中心场景中,比如银行客户,OushuDB具有非常大的优势。另外一个重要的区别是性能,OushuDB中的新一代基于SIMD执行器要比传统数仓快5-10倍,比传统SQL-on-Hadoop快几十倍,是一个突破性的创新。

爱分析:偶数科技的数据库产品与传统MPP数据库的应用场景有哪些差异?

常雷:HAWQ,主要的优势体现在扩展性上,传统MPP数据库很难做到在上千个节点中部署;OushuDB,主要的优势体现在可扩展性、性能、跨数据中心支持,以及对于人工智能的支持上。

爱分析:数仓的架构改变对于机器学习/深度学习有什么影响?

常雷:大部分机器学习/深度学习算法可以在数据库内部实现,在数据库内部做迭代的过程中,如果数据可以离算法更近,那么调用数据训练的速度就会越快,这就是In-Database的好处。

爱分析:Oushu Littleboy是否采用了AutoML技术?

常雷:是的,AutoMLLittleBoy中帮助用户自动选择算法和模型,并选择超参。LittleBoy是一款面向普通数据分析人员的可视化自动化机器学习人工智能平台,可以通过非常简单的操作完成机器学习、深度学习模型的搭建和调优。一般人经过半小时的培训就可以训练出一个简单的模型,比如信用卡反欺诈模型。

爱分析:人工智能产品是否主要面向业务人员?

常雷:数据科学家、业务人员和IT人员都可以使用,可以节省他们很多建模、调参时间。

爱分析:人工智能产品是全行业通用的吗?

常雷:是的,但是在模型应用层,就会跟行业相关联。

人工智能需求增加,APTP数据库各有所长

爱分析:市场对于数据仓库产品的需求发生了哪些改变?

常雷:第一,对于人工智能的需求在不断增加,然而人工智能只是算法,底层的存储架构如何去支撑算法是非常重要的,新一代数仓对于人工智能的支持是非常重要的。

第二,对数据分析的重视程度在不断增加,在十几年前AP是没有TP重要的,因为TP往往是使用在核心业务系统中,但是随着上层应用的发展,比如银行的反欺诈,AP功能已经开始成为核心系统,这就对于AP数据仓库的性能以及稳定性提出了更高的要求,比如大数据量下跨数据中心的分析,这个问题比TP场景下更难解决。

爱分析:AP数据仓库是否能够替代TP数据库?

常雷:两者的优化方向不同,TP针对的是小数据量、高并发的场景,而AP针对的是大数据量下的分析场景,两者各有所长。AP的技术挑战更大一些,因为处理的数据规模和集群规模不在一个量级。

爱分析:怎么看待HTAP数据库?

常雷:AP是做分析的,综合的是很多个系统的数据,TP往往用于单个交易系统,两者的应用场景、优化目标完全不同。所谓的HTAP不是一个新的东西,大家在数据库出现的最早期就是这么用的,当时大家用数据库同时解决交易和分析两种应用场景,现在在数据量小的时候用户依然这么使用PostgreSQL或者MySQL等。HTAP对于中小企业可以实现,但对于大企业来说,现在还不太现实。

爱分析:新技术的出现是否会颠覆Hadoop生态?

常雷:人工智能的新发展会颠覆Hadoop的传统机器学习部分,但是HDFS等组件还是会继续存在,在这之上可以跑深度学习算法。

主打标杆客户竞争来自国外厂商

爱分析:目前客户主要分布在哪些行业?

常雷:金融、制造业、能源、公安、互联网等等,很多行业都有标杆客户,例如国家电网、海尔、中兴、阿里、深圳国税等。

爱分析:客户主要在哪些场景中使用OushuDB

常雷:主要是分析类场景中,包括人工智能应用、统计报表、即席查询等。比如海尔用在用户画像等应用场景中。

爱分析:金融场景中,反欺诈对于实时性是否有要求?

常雷:实时交易反欺诈对实时性要求很高,模型是提前训练好的,但预测需要在毫秒级运算出结果,并且模型还需要根据数据动态变化。

爱分析:税务领域中,主要在哪些场景中应用?

常雷:目前,税务领域的需求还是比较早期,主要还是统计、报表以及简单的分析功能,将来会逐渐延伸到偷税、漏税的场景中。

爱分析:数据库市场中,主要面临哪些厂商的竞争?

常雷:国外的厂商比较多,比如TeradataVerticaDB2等,国内的南大通用等。

爱分析:团队规模是怎样的?

常雷:目前在50人左右,其中30多人是研发,销售很少,还是以标杆客户为主,年底计划扩大团队到60-70人。

爱分析:产品的部署周期是多久?

常雷:偶数的产品是比较轻的,不需要定制化,人工智能部分相对重一些,因为涉及到建模,会有服务团队来帮助客户完成。

爱分析:对于客户已有的大数据平台,偶数科技是选择替代还是结合?

常雷:已有的大数据平台是可以继续利用的,但是随着新业务的不断增加,已有的平台会逐渐被替代。

爱分析:偶数科技今后的发展方向是怎样的?

常雷:我们会提供一整套解决方案,从数仓到人工智能,目前是发展到建模这一层。