摘要:国产基础软件厂商

支持国产芯片,红象云腾为航天业打造大数据平台 | 爱分析访谈-ifenxi

指导 | 凯文 李喆

调研 | 李喆 崔可家

撰写 | 崔可家

大数据产业爆发期内,Hadoop发行版两家头部公司Hortonworks、Cloudera风光无限,分别在2014年、2017年上市,不过两者股票表现并不尽如人意,预示着Hadoop市场的冷却。

2017年,Gartner发布的数据管理技术成熟度曲线中,更是将Hadoop列为在达到成熟之前就将被淘汰的技术。

然而,Hadoop在大规模集群部署时依旧拥有独特的优势,生态也愈加完善,众多企业在面对超大数据存储时,Hadoop仍是首选。能否为企业提供完善的产品,满足市场需求,是一家Hadoop发行版厂商所需要考虑的问题。

红象云腾,作为国内开发Hadoop发行版厂商之一,于2013年成立。目前,红象云腾的主要产品包括CRH(大数据存储和计算平台),CRS(AI智能分析平台),CRF(物联网大数据接入平台),客户分布在航天、公安以及银行等领域。

底层芯片支持,构建企业信任链

支持国产芯片,红象云腾为航天业打造大数据平台 | 爱分析访谈-ifenxi

作为一家初创公司,红象云腾没有在初始阶段将产品往上层应用延伸,而是选择了向底层芯片兼容。

目前,红象云腾CRH是唯一支持五种指令集和两种操作系统的大数据平台。这五种指令集分别是X86指令集、 Power指令集 、飞腾/华芯通/ARM64、龙芯/MIPS指令集,以及申威/SW64指令集 ,两种操作系统分别是基于RedHat/Centos的R系和基于Ubuntu的U系。

通过支持底层芯片以及操作系统,红象云腾构建了Hadoop底层生态环境。

目前,国产操作系统当前面临的一大问题,就是没有大量的上层应用支持。CRH作为IT生态中的中间件软件,承担着操作系统和应用程序的联接工作,在未来,CRH可以通过支持大量上层应用来解决国产操作系统应用少的问题。

由此可见,CRH作为系统和应用的中间件,在客户部署国产操作系统或者芯片时,是不可或缺的。

红象云腾通过底层工作,取得了浪潮、曙光等主机厂商的合作机会,这意味着有更多的渠道将产品销售给客户。2015年,红象云腾通过浪潮将CRH部署在了航天系统,此后,这些主机厂商也帮助红象云腾的产品进入了银行、公安等行业。

完善产品线,提供完整大数据平台

支持国产芯片,红象云腾为航天业打造大数据平台 | 爱分析访谈-ifenxi

随着底层生态的构建完成,红象云腾的产品开始逐渐向上层应用延伸。

CRH作为红象云腾的主要产品,现在包含了分析型数据仓库、分布式数据库等模块,可以覆盖企业数据仓库、商业智能、数据可视化等领域,主要面向管理端。

目前,CRH收费方式是通过节点订阅以及后续服务,由于与主机厂商合作,在前期部署实施阶段的人力投入较小。

除此之外,红象云腾还在积极向AI以及工业领域布局,推出了物联网大数据接入平台CRF,以及AI智能分析平台CRS。

CRF主要应用于工业上的流数据,将数据接入CRH平台,利用Kafka+Storm对流数据进行处理分析,主要面向采集端,目前已经在一家工厂中试用,处理测点数达到1000以上。

CRS是利用Hadoop 3.0对于GPU的支持,基于Hadoop Yarn完成了对于TensorFlow和Caffe等深度学习框架的集成,主要面向用户端。

可以看出,红象云腾已不仅仅满足于数据存储计算产品,随着今后在各个行业逐渐积累,还会推出满足不同行业需求的应用。不过,现阶段,各行业中都面临大量数据基础平台产品竞争,选择哪些行业发挥自己的优势,是红象云腾需要考虑的问题。

深耕航天业,打通上下游产业

2015年,成立两年的红象云腾在航天领域完成了大规模集群部署,截至当前,服务十一颗卫星工作,平台数据存储量达到PB级别。

红象云腾选择了航天业作为主要发展行业。

一方面,由于其对于安全性、稳定性的特殊需求,航天业客户一般会具有极强的黏性,从红象的发展中也可以看出,其服务的卫星数量在不断增加;另一方面,航天业的数据量极大,正好利用Hadoop大规模集群的优势。

当前,红象通过集成商与航天客户合作。这一模式虽然降低了成本,但是客单价也会受到影响。并且,CRH虽然被航天业所采用,但是对于红象本身来说,由于缺少数据,很难针对航天业下游厂商开发应用,向下游渗透。

为解决这些问题,红象云腾计划与航天业进行深度合作,建立航天大数据中心,通过航天数据结合CRH运算能力,开发更多行业应用,辐射整个航天业上下游。

支持国产芯片,红象云腾为航天业打造大数据平台 | 爱分析访谈-ifenxi

近期,爱分析对红象云腾创始人童小军进行了访谈,就红象云腾的产品、经营策略,以及数据库行业发展趋势做了深入交流,现将部分内容分享如下。

支持Hadoop 3.0,产品向完整平台发展

爱分析:红象云腾在今年3月份发布了CRH v6.0,与之前版本相比,6.0版本有什么优势?

童小军:首先,CRH v6.0是首个支持Hadoop3.0以及OpenPOWER大数据平台软件,通过了相关产品兼容性测试和认证;其次,CRH v6.0实现了与开源项目Ambari的集成,可以实现Hadoop 3.0快速部署;最后,加入了新的技术,比如Erasure Coding(提高存储利用率)、多NameNode(提供高可用性)以及Nativetask数据处理引擎(提高数据处理速度)等等。

爱分析:目前,红象云腾的产品结构是怎样的?

童小军:主要包括CRF(数据采集模块)、CRH(数据存储模块)以及CRS(数据挖掘模块)。通过这三个模块的组合以及各模块中的工具选择,来满足不同客户的需求。

爱分析:为什么选择基于Storm开发流数据计算引擎?

童小军:其实也有其他的流计算架构,比如像Flink等,虽然Flink也很成熟,但是我们还是考虑到用户需求,以及整个生态环境的完善程度,最后选择了Storm作为流数据计算引擎。

爱分析:红象云腾的发展路径是怎样的?

童小军:我们在底层芯片支持工作上花了很多时间,从之前的财务表现来看,其实并不是很令人满意,但是从整体形势上来说,我们现在已经从之前大量的工作积累中得利了。

比如国产芯片公司,在中兴事件出来之前,它本身的产品是很难卖的,但是之后由于中兴事件的出现,国内客户对于国产产品的需求激增,国产芯片的订单数量也开始快速增长,我们因为支持底层芯片技术,自然而然的也被这些客户选择了。

爱分析:为什么要选择支持多种芯片?

童小军:从底层芯片,到中间服务器提供商,再到操作系统,最后是我们红象这类中间件软件和上层应用,这是一个完整的生态。

每一种芯片都需要一个生态来配合它,我们也需要配合每一种生态来满足不同客户的需求,这样我们才有更多的机会来被客户选择。

我们之所以能应用在中国航天系统中,也与我们所做的芯片支持工作有关。

爱分析:未来是否会向上层应用发展?

童小军:我们在CRH两侧加入了数据采集以及数据挖掘展现,会更加贴近客户,可以为客户提供一个完整的平台。

但是,我们整个CRH平台还是一个开放的平台,我们还是会和其他软件去合作。比如在CRF中,我们的侧重点在流计算上,与数据采集软件不冲突;在CRS中,我们的侧重点在算法上,与数据展现软件不冲突。这样我们可以取长补短,完善整个产品,更好的为客户服务。

爱分析:今后是否会考虑推出云服务?

童小军:我们还在观察市场上整个云服务的效益,由于云服务客户的付费习惯与传统企业不同,所以我们还在考虑这件事。

以渠道销售为主,降低人力成本

爱分析:红象云腾有哪些合作伙伴?

童小军:现在最大的合作伙伴是浪潮,之所以浪潮会选择与我们合作,也是因为我们对于IBM POWER架构的芯片提供支持,这样浪潮才会认可我们。

爱分析:销售模式是怎样的?

童小军:主要是通过跟集成商合作的方式,因为他们的销售渠道更多,并且可以把我们带入更大的项目中。做大数据基础软件,需要这些头部的项目做示范案例。

爱分析:客户主要在哪些行业?

童小军:主要是公安、银行、航天军工。公安中主要应用在搜索查询和数仓场景,银行中主要应用为数仓,替代Teradata,航天中主要应用为替代EMC存储。

爱分析:是否会在银行业拓展业务?

童小军:肯定会继续做银行的相关业务,但是关注重点可能还是在航天这一块,因为在这个领域我们已经占据了大部分的上游市场,之后还可以往下游延伸。

所以,我们现在的行业重点还是在航天上。

爱分析:除了产品节点收入以外,是否有其他的服务收入?

童小军:主要有一些维护以及应用的开发优化费用,我们会不断的帮助客户围绕Hadoop生态完善整个系统。

爱分析:红象云腾团队规模有多大?

童小军:大约有20人,主要还是以研发为主。

爱分析:单个项目周期大概是多长时间?

童小军:我们尽量控制在3个月内。在项目部署阶段,投入的人力是非常少的。

Hadoop技术已成熟,新创业公司入场较难

爱分析:Hadoop主要的应用场景有哪些?

童小军:Hadoop主要面对大数据量存储,数据价值可能相对来说较低,主要应用在非结构化和半结构化数据上,对于银行的核心交易系统,Hadoop很难去取代原有的数据库。

Hadoop大部分应用场景还是在于离线分析,对于实时分析方面,可以有其他的软件来弥补,比如说Hbase实时数据库。

爱分析:您认为Hadoop市场渗透率如何?

童小军:我认为,起码世界500强企业,大部分都在使用Hadoop,在互联网行业,排名前1000的公司应该都会使用Hadoop。

爱分析:您认为以Hadoop为核心的新创业公司还有机会吗?

童小军:现在这个阶段,不太可能出现新的Hadoop创业公司,因为Hadoop已经是一个相对比较成熟的体系,发展比较好的Hadoop公司都是在Hadoop出现早期就成立,随着Hadoop的技术以及市场越来越成熟,这些公司一起发展起来,现在已经没有新的市场增量给新的创业公司了。

爱分析:除了Hadoop发行版之外,是否还有其他分布式数据库?

童小军:这肯定是有的,比如像TiDB、巨杉等。他们在分布式数据库领域做的也都很好,但是与Hadoop相比,这些数据库的数据处理量还是比较小的,没有一种像Hadoop一样能扩展到几千上万台服务器的规模。

爱分析:很多数据库选择银行作为主要切入行业,您怎么看?

童小军:银行本身在IT投入上占市场总IT投入的一大部分,并且银行自身的技术实力相对较弱,这就需求要产品特别完善,并且是面向企业的。

同时,银行由于涉及财产交易,对于产品的选择也是非常谨慎的,所以往往会采用已经通过银行系统测试的产品。

大多数数据库产品,最初进入银行还是以边缘系统为主,之后才会逐渐的向核心系统延伸。

爱分析:您认为未来云厂商是否会进入大数据基础软件领域?

童小军:云厂商肯定会进入到这个行业中,但是云厂商肯定不能满足客户的全部需求。因为如果是互联网客户,那么可以自己利用开源软件搭建一套Hadoop生态,不需要云厂商提供;如果是企业用户,那么企业就需要应用来使用Hadoop,但是云厂商在云计算上已经有很大的竞争压力了,肯定就不能提供特别完善的应用。

爱分析:您认为数据库市场集中度在未来会是什么样的?

童小军:我认为会是一个极度碎片化的市场,在每个行业中可能会出现一两个巨头,但是不会出现像Oracle这样一家通吃整个市场的巨头。

现在来看,虽然Cloudera和Hortonworks是两家体量最大公司,但是还是有很大的发展空间。