以Hadoop发行版起家的星环科技,已将产品线扩展到Hadoop生态下的全基础软件,分析型企业数仓和实时流处理是发力的重点。整个Hadoop生态仍处于早期阶段,未来渗透率将达到目前的五六倍,仅分析型数仓的市场规模会超过百亿。但星环科技面临的竞争非常激烈,包括华为、Cloudera等国内外优秀厂商,短期发展会受到一定影响。
数据仓库一直是基础软件中最重要的组成部分,国内数仓市场规模超百亿,但过去一直被Oracle、IBM、SAP等国外巨头公司占据,偏重交易的关系数据库是主流。
大数据时代,分析型数仓崛起,以Hadoop为代表的开源技术正在冲击传统数仓技术。国外出现了Cloudera、Hortonworks等创业公司,国内诞生了星环科技、天云大数据等公司。
2017年4月,Cloudera成为第二家登陆纳斯达克的Hadoop发行版厂商,市值超过20亿美金。同年5月,星环科技完成由腾讯领投的2.35亿C轮融资,国内外最大的大数据基础平台新锐在资本市场更进一步,以数据库为代表的数仓市场的竞争格局正在转变。
爱分析认为,星环科技不是Hadoop发行版厂商,而是基于Hadoop生态下数仓等基础软件厂商。整个Hadoop生态还处于早期阶段,市场渗透率有很大提升空间。星环科技切入的市场空间足够大,但面对华为、Cloudera等国内外厂商竞争,短期发展会受一定影响,但长期来看,技术、产品的积累会让星环科技脱颖而出。
Hadoop发行版只是开始,定位于大数据时代的基础软件厂商
星环科技创始团队来自Intel开发Hadoop的技术团队,因此很快研发了自己的Hadoop发行版,但基于开源版本的发行版很难盈利,国内客户重应用轻基础平台,因此星环科技逐步将业务做厚,形成上下四层产品线。
底层TOS是容器化产品,可以将上层产品都封装成容器,这样大大减少部署交付难度;第二层是Hadoop发行版,主要是文件系统;第三层是星环科技的六大产品,包括分析型数仓、流处理引擎、分布式NoSQL数据库、搜索引擎、深度学习引擎等;第四层是各类工具,帮助客户更好使用六大产品。
Hadoop是基础,但六大产品才是星环科技核心盈利来源,能够解决企业客户在大数据时代的问题。以分布式数仓Inceptor为例,最大优势在于对SQL的兼容性高、可扩展性强、性能优越,这使得客户可以顺利将基于传统架构的应用迁移至Hadoop架构上,不用重写代码。
即使业务变厚,星环科技仍然定位于基础软件厂商,不碰具体应用,向上对接应用软件厂商,向下对接硬件和操作系统,核心产品路线是在不同场景下,针对传统数据库在分析能力薄弱处进行补强,替代传统数据库分析型业务。
金融和政府是重点行业,按照节点收费
星环科技的优势在于比开源版本更多功能、更强稳定性和更快运行速度,因此,只有在数据量大、应用复杂的领域才能发挥优势,这里面应用场景复杂的重要性要高于数据量大。
因此,星环科技重点布局的领域是金融和政府,政府中主要是公安交通行业。尽管星环科技不卖Hadoop,但是仍然沿用了Hadoop的收费模式,按照节点进行收费,根据功能不同,单个节点价格从几万元到几十万元不等。
金融和公安交通这两个行业又存在差别,银行等金融客户已经开始将各类复杂应用迁移至分布式架构上,例如基于星环平台构建数据仓库和数据集市,替代传统数仓,并在此之上进行业务分析。而公安交通在Hadoop架构上主要还是如查询等简单应用,但已经逐步采用实时流式计算、搜索引擎、图分析和机器学习等新技术。
市场竞争激烈,国内外都有强劲对手
相比应用软件领域,基础软件的技术门槛更高,玩家相对较少,但多数是巨头公司,实力强劲。
传统数据库和数仓厂商包括Oracle、IBM、Teradata等公司,Hadoop兴起后,出现了Cloudera、Hortonworks、MapR等公司。同时,因为开源技术愈发成熟,很多传统硬件厂商基于开源技术也进入到这个市场。
从整个Hadoop生态来看,目前渗透率还很低,在整个基础软件的渗透率不足10%,传统数据库仍然占据主流。但因为分布式架构的天然优势,可以预见的是,基于Hadoop架构的数仓将替代传统数据库的分析业务,这部分在整个基础软件占比为60-70%,因此,预计整个市场规模会超过百亿。
在Hadoop生态内,星环科技仍然面临不小的竞争压力,国外主要竞争对手是Cloudera,Hadoop社区领导者,其Hadoop发行版CDH拥有全世界最多的客户;国内主要竞争对手是华为和阿里巴巴,特别是华为,同样将金融和政府定为重点客群。这些竞争对手均尚未推出数据仓库产品。
未来,云计算厂商特别是公有云厂商也会是星环科技的强劲对手,因为基础软件多数是不具有行业属性、通用产品,因此公有云厂商会逐步将数据库、数仓纳入到自己的业务范畴,不过短期来看,公有云市场渗透率还很低,金融、政府大型客户尚未完成云化,因此这方面竞争并不明显。
短期来看,由于较强的客户关系,华为对星环科技构成的竞争压力更大。目前市场还处于早期跑马圈地阶段,华为依靠客户关系和低价竞争获取不少订单。不过,行业尚未形成统一标准,大型客户并不会只选择一家厂商的产品,毕竟基础软件只是个平台,上面能否承载复杂业务应用才是关键。
因此,客户会购买两三家厂商的产品进行比对,这对具备技术优势的星环科技来说是个机会,不会因为华为等厂商的竞争而立刻出局。
接受腾讯投资,建立小生态对抗巨头
竞争对手是巨头厂商,单打独斗很难取胜,因此,星环科技一方面在寻找合作伙伴,另一方面也接受了互联网巨头的投资。
腾讯入股后,星环科技的客户关系得到增强,金融和政府是腾讯云在今年发力重点,星环科技可以借助腾讯云触及更大客户,两者业务上存在互补,基础设施和中间层数据库。
此外,星环科技和腾讯云在公有云上进行合作,星环科技能够以SaaS模式收费,这部分客户暂时贡献收入较少,但续费率更高,未来可以贡献稳定现金流。
同时,星环科技也在建立自己的生态合作伙伴体系,主要是工具类、应用开发、外包服务这三类厂商,数据库等基础软件是非常底层的产品,一般不会面对终端客户,这就使得必须将大量应用厂商拉入到自己的阵营,才能扩大市场占有率,提升品牌价值。
星环科技与这类厂商合作类似于Oracle的打法,合作伙伴并非渠道,而更类似客户,只不过最终买单仍然是企业。合作伙伴通过星环科技的平台搭建应用,交付给企业客户,两类产品会打包成项目,但会分开收费。因此,借助合作伙伴不会减少星环科技的客单价,但对产品、品牌提出更高要求。
近期,爱分析对星环科技创始人孙元浩进行调研访谈,在星环科技的产品定位、业务模式、未来市场空间以及竞争格局等方面,孙元浩进行了系统阐述,现将精彩内容分享。
围绕金融、政府客户需求开发新产品,版本迭代更多考虑稳定性
爱分析:今年5月份星环科技发布TDH5.0产品,增加了Search、Sophon这两个产品,出于哪些考虑?整体产品路线图是如何规划的?
孙元浩:主要是应对两方面需求,搜索引擎主要应用在监管领域,包括公安、人民银行等监管机构,这些领域需要对数据做大量的搜索和统计。传统数据库做搜索不太有利,搜索引擎在统计上比较弱,不管是ES、Solr,还是过去的全网搜索引擎,不能支持SQL,两个特殊需求使得我们推出一个产品,能够同时满足这两类需求。
存储引擎是个分布式搜索引擎,上面将SQL引擎融合在一起,这样用户就可以在同一套引擎上既做搜索也做统计,能满足监管机构的需要。这个产品其实在4.8版本已经在使用了,当时已经部署20-30个集群。所以在5.0版本正式推出。
Sophon主要定位在深度学习,Discover产品主要是统计和机器学习,对外提供R语言。现在我们看到一大类需求主要是在自然语言理解、图像图形分析上,一些深度学习算法在应用领域非常有效。Sophon是将TensorFlow和我们的平台对接,跑在容器上面的。同时,我们是分布式算法,框架是分布式的,可以调度分布式的GPU集群,在上面提供一百多种算法。
同时,对外提供Midas工具,可以图形化来创建机器学习的Pipeline,甚至把数据清洗、特征提取等功能全部放在里面,所以他完全不需要嵌入命令行,完全界面操作。
Discover定位是给高级编程人员,主要提供R语言接口,也有Python、Java。我们发现中国R语言的用户比较少,所以还是需要非常易用的图形化工具来简化机器学习,这也是我们Sophon组合推出的原因。
推出后很快就在一些大客户使用,一些大集团已经用Sophon+Midas来替代传统的统计分析软件,一些银行用Sophon中的深度学习算法做复杂的精准营销模型,一些国有企业在用Sophon做预测性分析和预测性设备维护。我们现在也在用工具做文本分析,主要用在金融机构。
爱分析:像公安、银行这些客户之前是不用搜索引擎?
孙元浩:之前也在用,有很多小的开发商都用Solr、Lucene,最早用Lucence 单机搜索引擎,后来就发展成开源的Solr。同时公安领域对HBase用的比较多,因为数量比较大,要查询。
这两种比较大问题是数据需要存两份,没办法在一份数据上面又做统计,又做搜索。还有问题是扩展性的问题,数据不能够达到PB级别。
爱分析:Sophon是基于TensorFlow做的产品?
孙元浩:可以看成是TensorFlow的发行版,加上一百多种算法,一部分算法是开源已有的,其余是我们开发的。
爱分析:没有选择Caffe的原因是什么?
孙元浩:Caffe主要是做图像分析,TensorFlow更通用一些。我们需要一批传统集群算法,也需要深度学习,因此需要通用架构。
爱分析:星环科技的TDH5.0主要是基于Hadoop 2.7.2版本研发,现在Hadoop已经发展到3.0,未来会不会对星环科技业务产生影响?
孙元浩:星环科技现在的产品可以分成四层,最下面是容器化,上面是Hadoop发行版,现在主要是用HDFS,Yarn在我们的产品中逐步被边缘化,还有一些常见的Zookeeper、Kafka工具。
这一层,首先我们商业上免费的,甚至是开源给客户。同时这一层我们是跟着社区,定期会同步一下。有的时候会长达半年至一年才更新,这就类似有相当长一段时间Linux kernel已经到3.0,RedHat的kernel版本还在2.6一样,主要是兼顾稳定性,因为我们已经在上面打几千个补丁,所以更新会慢一些。
为什么我们不是这么积极?主要是3.0和2.7.2没有太大变化,只是某些增量功能增加,不是本质变化。整个社区发展在减速,Hadoop的功能基本在稳定,主要是HDFS。我认为Yarn这个技术会被淘汰,所以保留Yarn只为了兼容。我们已经有自己的调度器。
第三层是我们自己的六个产品,全部跑在我们的调度器上,不是跑在Yarn上面。第四层是工具层。
因此,Hadoop只是我们产品的一部分,他升级的时候我们也跟着升级,只不过我们会更多考虑稳定性,保证客户的业务稳定性。
爱分析:星环科技现在有多条产品线,Hadoop发行版只是其中一环,是不是主要盈利已经不再来自Hadoop发行版?
孙元浩:我们会保持对开源Hadoop兼容和改进,只不过这部分一直不是我们的盈利点,我们从创业到现在这部分一直是免费的,我认为Hadoop是赚不了钱的,但它是必需的。
我们现在主要是在Hadoop上开发各种组件,当然这一过程中需要不断对Hadoop进行改进,因为它是文件系统,数据可靠性、稳定性都非常重要。
从商业角度来看,我们需要有差异化产品来盈利,所以在上面开发了越来越多的原创性产品,不再会用开源产品来改造,即使我们会基于TensorFlow框架,但上面也会做很多原创性开发。
布局金融、政府领域,数据仓库市场是重点
爱分析:星环科技目前主要发力于哪几个行业?
孙元浩:我们做的比较多的是金融行业,按我们自己的统计,银行领域市场占有率60-70%左右。另外,我们在交警这个行业,我们占90%市场份额。在税务、审计等政府机关也有一批客户,它们应用数据量比较大,所以必须用新技术。
金融和政府是比较大的两个行业,还有运营商、能源等领域。
我们在每个行业都有应用,但在上述这几个行业早期建立了案例,因此复制起来会快一些。
爱分析:像金融、政府领域您是如何判断市场规模的?
孙元浩:市场规模不是按行业划分的,行业的IT投入会包含数据库、应用、硬件、专业服务等,加起来是个很大规模。数据库在单个垂直行业比较难估计。
我们现在看这个市场,主要是看产品类别,而不是看行业。
爱分析:按产品划分,星环科技主要切的是哪类市场?
孙元浩:我们主要切的是数据仓库市场。全国数据库市场每年在100亿左右,包括产品和服务;其中有一半来自Oracle、IBM和Teradata,加起来接近40亿。这个市场是我们目前做的主要市场,目的是取代关系数据库来做数据仓库、做分析。交易型的还没有取代。
数仓是一组工具的组合,其中数据库是最核心的,我们是在数仓中担任数据库的角色。
当然,我们的实时流处理技术的市场也不小,在公安交警领域我们部署了两百多个城市,在能源、物联网的实时消息传送、分发,都是用我们的流产品做的。
这两部分是我们主要营收来源,机器学习之前只占到营收的很小部分,约10%。现在搜索引擎和机器学习会是收入的新增长点。
产品化率95%,研发占比长期保持50%以上
爱分析:星环科技收费方式是按节点?
孙元浩:现在还是按节点收License,但是因为我们跟腾讯云合作,腾讯云上也会推出相应的产品,这是按照订阅方式收费。
单个节点从几万到几十万都有,因为我们的版本很多,从基础社区版到数仓版,再到企业版,功能差距很大。
爱分析:会有哪些因素影响复购率?
孙元浩:主要是客户应用的丰富程度,其次是产品的稳定性。驱动力不是来自数据量,是来自应用,应用增长速度远远超过数据。
爱分析:目前单个项目产品化率如何?人力占比会在多少?
孙元浩:人力占比会5%,产品化率未来会逐步下降的。
爱分析:下降是什么原因?
孙元浩:很多客户需要专业服务,所以整个项目未来产品化率会下降,还会在80%左右。
我们希望能把产品做得很易用、很稳定,客户可以直接使用,这样业务可复制。上层应用开发希望依赖合作伙伴去完成。
合作伙伴选择我们平台有两个好处:第一,能给客户产生更高价值,使得合作伙伴能获得高收益,用开源版本只能做历史数据查询、用户标签画像等简单应用,附加值很低;第二,我们产品使用难度比较低,对他们的人力要求自然比较低,合作伙伴易于扩张。
爱分析:现在选择合作伙伴主要会选择哪几类厂商?
孙元浩:现在主要是三类,一类是工具类合作伙伴,比如可视化、报表工具;第二类是ISV,主要是做行业应用或者自己有产品的厂商;第三类是SI或者专业服务提供商,像文思海辉,在我们的平台上做服务。
还有些代理商和硬件合作伙伴,像思科、联想、浪潮等。
爱分析:星环科技现在整体团队规模大概有多少?
孙元浩:350人左右,其中研发人员有近200人。剩下人是销售、运营和实施人员。
爱分析:现在研发费用占比大概是多少?您判断未来业务稳定后,研发费用占比会降低么?
孙元浩:现在研发费用占比60-70%,我认为长期会在50%以上。我们是技术驱动型公司,研发投入会持续比较高的,这个领域技术创新很快,我们会不断开发新产品和新功能。
爱分析:目前服务传统企业主要还是项目制,这会不会使未来扩张更多依赖人力?
孙元浩:我们不是做应用,我们做基础软件,客户的依赖度还是很高的,所以每年都会收到运维费用。
爱分析:运维类业务对人力依赖比较大,会拉低整体毛利率,这部分是如何考虑的?
孙元浩:主要看应用是不是规模化,我们每一类应用运维成本都不太一样。有些应用只需要十个人就能支持全国的业务,金融客户要求比较高,有些时候需要两三个人支持一个客户,这是因为有些客户发展比较快,不断会开发新的应用,就需要有人长期驻场。
Hadoop生态渗透率只有5-10%,短期来看华为是主要竞争对手
爱分析:您判断整个Hadoop生态在中国IT投入的渗透率如何?
孙元浩:目前渗透率还比较低,在我们的客户群中,我觉得渗透率还可以,主要是应用越来越复杂了。我觉得占整个IT投入的5-10%,还是很小的一部分。整体渗透率不行,应用都太简单,客户就觉得体现不出价值,会觉得没有想象中那么好。
我觉得主要是开源技术进步太慢,没有支撑起客户的重要应用。
爱分析:未来渗透率有望提升到多少?
孙元浩:我们发现有些银行正逐步把业务都迁移到分布式数据库上,未来所有金融机构的分析应用都会迁移到上面,比重会越来越大。在金融机构里面,分析型投入一般会占到企业IT投入的60-70%。
爱分析:有些企业直接用开源CDH版本搭建基础平台,有多少企业会选择星环科技这样的商业版软件?
孙元浩:跟行业成熟度有关,银行已经几乎没有客户用开源的,因为他们对软件的功能要求非常高,故障率要求非常低。上面的应用又比较复杂,不仅仅是存储数据、查询数据等。需要考虑性能稳定性、功能稳定性、承载复杂应用,就只能选择商业版软件。
爱分析:基础平台领域,既有国外厂商Cloudera,又有国内厂商华为等,哪一类会是星环科技主要竞争对手?
孙元浩:短期来看,国内公司对我们影响会更大,因为他们的销售力量比较强。长期来看,国内厂商都会放弃,Cloudera会是我们主要竞争对手。
爱分析:云厂商会不会成为星环科技的竞争对手?
孙元浩:这会是未来主要竞争对手。私有云厂商,我认为不存在威胁,因为企业大数据平台还是很复杂的产品,但公有云的确会是威胁。因为公有云的宗旨是把简单、标准化产品都对外提供,因此产品在功能上优势不明显,主要靠规模取胜。
因此,公有云厂商提供的大数据服务会有很强竞争力,这也是为什么我们选择与腾讯合作。
爱分析:华为在政府、金融领域销售能力很强,如何看待与华为的竞争问题,未来会是什么趋势?
孙元浩:我觉得华为不是个产品型公司,是个以客户为导向的公司,客户需要什么,他就攒一个产品满足客户需求。所以,我不认为他会是我们的长期竞争对手。
但是华为的营销能力很强,他不关注底层产品是谁家的,关键是获取客户。在客户争夺上,我们会与华为竞争比较激烈。
爱分析:这样会不会变成一个价格战?压缩星环科技的毛利和净利空间?
孙元浩:从春节后就开始发生了,竞争对手开始以我们的二分之一甚至三分之一价格销售。但是这个市场客户越来越理性,客户还是更关注产品能否满足需求,因为这部分客户的投入并不是很大。
爱分析:如果一旦占据客户,未来置换成本会比较高,所以这种低价进入市场,占据市场的做法是否可行?
孙元浩:这就看产品的差异程度。很多人认为通过低价占据市场,这样客户就被绑架了。但从美国市场来看,很多客户都买了三套不同的集群,不断在上面试应用。客户买这个平台不是最终目的,而是通过平台建造应用实现业务的,毕竟平台不是最终应用。
爱分析:公司整体战略是如何考虑的?
孙元浩:主要还是产品战略,我们技术公司最终还是要靠产品说话,所以产品上会不断推陈出新。另外,我们也在发展生态战略,我们会推出社区版,是个免费版本,功能不如我们的高级版,但比开源版本要好很多,让更多合作伙伴和客户来做使用。
关注爱分析订阅号(ifenxicom),回复“ 星环科技 ”即可获得完整版报告。