数据堂创始人齐红威:数据堂要成为大数据行业的中石化-爱分析

撰写 | 李喆

提到数据资源运营,齐红威绝对是行业的先行者。他创建的数据堂,从2011年开始做数据资源运营。经过五年发展,数据堂成为这一领域的龙头企业,进行了很多探索和尝试。齐红威对数据资源运营有很深的理解,创业之前从事多年的数据分析工作。

博士毕业后,齐红威去了NEC中国研究院,一待就是8年,主要工作是帮客户做商业智能解决方案。做的是数据分析的活儿,却经常为没有数据而发愁。

离开NEC后,齐红威有两个创业选择。一个是像其他公司那样做解决方案、数据应用、数据挖掘等,另一个是做数据资源运营,解决当年遇到的问题。他选择了后者,创建数据堂这家公司。

近期,爱分析对齐红威进行专访,访谈中,齐红威针对数据堂的发展历程、如何挖掘数据价值、大数据行业未来发展趋势以及数据交易可行性等方面,深入阐述了自己的看法。爱分析节选其中精彩内容,与各位分享。

要创建大数据行业的中石化

爱分析:当初是如何决定创建数据堂这家公司?

齐红威:我们2011年开始做这个事情。最早核心创始团队主要来自NEC中国研究院。我们在NEC做了8年,就干了一件事情:帮金融机构、汽车厂商和电信运营商做商业智能解决方案。

在做项目的过程中,我们遇到一个很大的问题,帮这些大客户做解决方案的时候都需要数据,但是又找不到这些数据。例如,我们当时给丰田做大陆客户对车以及各部件的口碑分析,这很大程度依赖用户评论数据,没有数据做不了。但丰田公司没有数据,我们当时就跟汽车之家、爱卡汽车等网站合作,通过网站论坛上的帖子找到用户评价。

我们在2010年开始筹划数据堂这件事,但最开始不知道要做什么。讨论了大半年,才开始明确下来,数据这件事会有机会,把数据源整合处理好,给别人提供服务。

数据堂这个模式,我们叫数据资源运营商,有点像数据领域的中石化。我们分三个阶段:首先,从不同领域、行业获取原始数据;然后把这些数据加工处理、分析整合,做成标准化产品;最后,将这些产品做成标准化接口,如API、SDK,以这种标准数据接口的形式提供给做数据应用的企业。从这个角度来看,我们的定位很像中石化——收集原油,加工为成品油,通过加油站进行服务。

第一个切入AI领域,不依赖第三方数据源

爱分析:数据堂是如何一步步发展到现在这样的?

齐红威:坦率来讲,我们在发展过程中,有的路走得比较顺,有的路出现小失误,做了些调整。对创业公司来讲,不可能一开始就走得很顺,肯定会进行调整。但是,这一路走来,我们的基本理念没变。

我们第一天就选定了做数据资源这件事,这是我们的初衷。当时还没有大数据概念,到2011年底开始有大数据概念,直到2013年,大数据还停留在概念层面。好多客户不明白数据有价值,有数据源的不愿意或者没有清晰的模式将数据提供给别人,数据使用方也没有清晰的模式让数据产生价值,使数据对其业务产生支撑。

因此,在2011年,我们找第三方去合作开发数据不是件容易事。产业还没发展到那一步,但我们觉得这件事可以开始布局,又不想依赖第三方,所以我们切入的第一个领域是人工智能。

选择AI领域有两个原因:第一,我们都是做AI算法出身的,对AI领域比较懂;第二,AI很多数据是不依赖第三方的,我们通过众包这种形式,是可以采集到大量数据的。

回过头来看这件事,当时选择AI领域做切入点是正确的。在当年,AI领域对数据的需求已经很高了,到现在是一个爆发阶段。

AI这个领域,特别是垂直应用,如语音识别、无人驾驶等,之所以现在到了商用阶段。是因为有三点支撑:

一. 计算能力有很大提升。我读博的时候,没有这种分布式架构的,当时有并行计算,但那种很难落地。如果没有这样一个模型可以同时连上万台机器,是处理不了大规模数据的。现在有了Hadoop等分布式技术体系,处理大规模数据的速度变快很多。

二. 算法的提升。从本质上来说,现在这些算法与过去没有太大区别。现在最流行的深度学习,本质上与过去的神经网络没有太大区别。我们之前用神经网络的效果不是很好,关键原因是神经网络需要有足够多的数据去支撑,可以把每一个节点模拟出来。我们之前只能计算几百个节点参数,而现在深度学习可以计算几十亿个参数。

三. 数据量的提升。例如之前语音识别是采集几百人的发音样本,我们现在做是几十万人的发音样本,数据规模可能是PB级数据,这么大的数据量会大大优化参数的效果。

我们要做的就是采集语音、采集图像。以无人驾驶为例,我们为很多世界知名的车厂提供数据,其中很大一部分数据是道路上所有交通标识牌。有了这些数据,所有做无人驾驶的厂商都是我们的客户。目前,我们在AI领域的数据可以应用到无人驾驶、人脸识别、智能家居、人机交互、安防监控、智能电商等领域。

我们采取众包形式来采集数据,主要是考虑到数据量很大,包括几十万人的数据,需要这些众包人员帮我们采集;另一方面,这个领域的数据需要多样性,覆盖面均匀,效果才好。

数据堂创始人齐红威:数据堂要成为大数据行业的中石化-爱分析

2014年切入其他行业,积累四类数据源

爱分析:数据堂经过这几年发展,目前积累了哪些数据?

齐红威:从2014年开始,我们开始布局其他领域。大数据概念开始落地,很多企业已经对大数据已经有较深的认识,机会慢慢出来了。像征信、交通等行业,有数据源的企业开始愿意合作了,认识到数据价值。

当时我们调研了20多个行业,如农业、化工、钢铁、交通、医疗、征信等。我们最先选择征信、风控作为切入点,银行是最早感知到数据价值的,他们对数据依赖也很大。之后我们拓展到了营销和交通。

切入哪个行业是要根据市场发展需求,是一步步来的,不是随便决定的。有些行业数据量很大,但是非常分散,整合数据的代价太高,即使整合了数据,那些企业对数据也基本在尝试阶段,这样就产生不了大规模收益。

金融这部分我们整合了两类数据,一类是用户的,一类是企业的。

目前我们整合的数据,成规模的有2000多套,加上AI领域和其他途径收集的数据,一共是45000套,一套数据是可以解决用户一个需求,数据总规模超过2PB。

爱分析:这些数据都是通过什么方式获得的?

齐红威:我们把数据分为四大类。

一类是纯线下数据,这类数据在现实世界中不是成规模存在的,需要一点点采集上来。这类数据都是通过众包采集上来的。

第二类是行业数据,全国有3000多万家企业,企业在经营过程中会产生很多数据,数据对于企业是副产品,我们与这些企业合作,去创造价值。如全国40多家城市出租车实时位置数据,这是与出租车公司合作获得的,出租车位置数据可以用于地图实时路况分析。企业愿意合作是我们保证企业数据源安全,产生价值后利益共享。

第三类是政府数据,政府有独特数据,我们现在也跟国家部委有合作。和政府机关合作,他们会担心合作方的身份,我们数据堂从成立以来,就是一个纯内资公司,同时我们也是这一领域做得最好的公司,容易获得政府机关的认可。

第四类是互联网数据,这部分数据是大家都能得到的,这些公开数据价值有限,噪音比较大。因此,我们的主要数据源是前三类。

数据堂创始人齐红威:数据堂要成为大数据行业的中石化-爱分析

只做数据资源运营,不碰数据应用

爱分析:那么数据堂对外提供哪些服务?

齐红威:我们不做数据应用,通俗地讲,我们是个面粉加工厂。我们整合五谷杂粮,做成标准的面粉。我们不做数据应用的事情,主要有两个原因。一方面,如果做垂直应用的话,个性化太强;另一方面,我们做应用的话,身份就不中立了,与其他做应用企业就产生竞争关系。

爱分析:数据堂的收费模式是什么样的?

齐红威:目前整个行业收费模式都是差不多的,无非是两类:第一种,将数据做成解决方案,以解决方案的形式收费;第二种,提供标准化API接口,按数据使用量付费。我们也就是这两大类,不过我们也在探索新的商业模式。

未来大数据行业会有聚集效应,三大原因致数据交易无法成行

爱分析:大数据行业未来会出现中心化么?

齐红威:大数据行业聚集效应会越来越强,吸附性很强,这种发展路径特别像淘宝。淘宝实际做的是平台,并没有任何产品。大数据行业的问题是有数据的一方,数据种类非常单一,需要和更多领域的结合才能发挥更大的价值。数据获取并非难事,关键是如何整合,将各个数据源打通,这才有价值。

爱分析:有些垂直行业,如征信,因一些政策限制,存在行业壁垒,这会导致各行业间市场无法打通,整个产业会按行业划分么?

齐红威:以电商为例,从2003年-2005年,国内电商只有卓越和当当,大家也看不懂市场空间有多大。但到2006-2008年,涌现出很多电商,其中有很多是垂直电商、区域电商。但到现在,已经基本发展成熟,能看出整个行业在进行最后整合,可能最后就剩下两家独家:B2B和B2C。

大数据行业也是类似,2011年我们刚开始做的时候,投资人也觉得这市场空间不大。到现在出现很多大数据公司,有区域、垂直行业的,我认为未来发展趋势会类似电商行业。

爱分析:您怎么看待数据交易这件事?

齐红威:自始至终我都没提过交易这件事,因为我觉得数据交易做不起来,主要有三大原因:

第一,数据这种商品,和其他有形商品是不一样的,甚至和论文、专利、商标这些无形资产也不一样。有一个大问题,数据的所有权没办法确定,还有巨大的隐私问题、安全问题无法解决。这些问题没有解决的情况下,数据是无法交易的。比如说,微博、微信的数据到底应该是谁的?这是无法回答的。

第二,原始数据提供方提供的是原油、小麦,而数据需求方需要的是成品油、面粉,需求方拿到原始数据是不知道如何使用的。这时候需要数据堂这样的中间平台,将原始数据进行加工处理、分析挖掘,产生的结果是可以交易的。因此,交易的是结果,不是原始数据。

第三,一定是多种数据融合的数据才会有价值,单一数据的价值有限,需要这样的平台将多种数据整合在一起,比如:征信,光靠基本身份信息是无法评估信用的,需要把在线交易等多种数据整合起来,才能评估个人信用。

基于上述三点,我们从来不提数据交易,我们也不做数据交易,早年我们倒是提过数据共享这个词。