数据智能

TalkingData崔晓波:数据服务市场未来会呈现高集中度,基于数据源做增值服务的公司机会最大

行业聚焦的TalkingData将产品化作为重点战略

2018年04月12日
指导 | 凯文 调研 | 李喆 黄勇 撰写 | 李喆
  • 数据智能
  • 数据服务
  • 大数据
  • 营销科技

崔晓波将于4月21日参加爱分析举办的“2018·爱分析中国大数据高峰论坛”,欢迎大家参会交流(在本文留言区留言,我们将选取3个精彩留言赠送本次论坛门票)。

过去一年,崔晓波带领的TalkingData确定了两大战略方向:行业聚焦和All in 数据产品。

2013年进入传统企业市场的TalkingData,依靠服务移动互联网客户积累的数据,用数据+咨询方式服务传统企业客户,覆盖金融、地产、零售、汽车、旅游等多个行业,拿下了很多行业头部客户。

当大数据行业处于早期发展阶段,同时在多个领域尝试是非常有必要的,但当整个行业趋于成熟,特别是2017年,整个大数据行业进入到与各行各业深度融合的阶段,对客户业务场景理解的要求不断提高,服务每个头部客户都需要一定人力投入,对创业公司的考验陡然上升。

尽管TalkingData将整体团队从300多人增加到500多人,但还是很难支撑多个行业业务同时迅猛发展,受困于人力,不得不收缩战线,逐步聚焦于金融、互联网、零售、政府这四个数据能发挥最大价值的行业。

在崔晓波看来,行业聚焦的一个主要目的是要产品化,只有这样才能提升整个公司的产能,引进更多合作伙伴,快速发展壮大。在开源大趋势背景下,传统软件产品这条路已经走不通,只有数据产品才能构建核心壁垒。

因此,TalkingData将整个公司的重心都放在数据产品的研发上。

TalkingData将数据产品分为三类:数据集、数据模型和数据应用。数据集是基础数据服务,数据模型是“数据+算法”的服务方式,如风控反欺诈模型、销量预测模型等,数据应用产品直接对应具体场景,如用户价值管理等,“场景+数据+算法”的形式。

在具体场景上,TalkingData除了营销之外,开始向人口统计、风控等其他业务场景延伸,持续不断开发基于场景的数据产品。

近期,爱分析对TalkingData创始人崔晓波进行专访,他对TalkingData的业务布局、未来战略,以及数据服务市场未来趋势、数据安全与数据定价等问题进行阐述,现将部分精彩内容分享。

重点做数据产品,聚焦金融、零售、互联网、政府四大行业

爱分析:TalkingData过去一年业务上哪些进展和变化?

崔晓波:过去一年,整个大数据市场非常好,不断涌现新的客户和新的需求,但我们自己的产能出现问题,太多项目接不过来。去年下半年,我们做的最多的就是砍项目,将重心放在数据产品上。

SAP、Salesforce等公司都会经历这样的阶段。刚开始做项目满足客户需求,后来开始产品化。产品化之后产能才能提高,慢慢才会有更多的合作伙伴愿意做销售和交付。

爱分析:为什么会选择数据产品这条道路?

崔晓波:我们认为软件是无法形成壁垒的,即使Oracle这样的大型软件厂商,在国内也呈现下滑趋势。传统软件这条路已经走不通了。真正有能力的还是拥有数据资源的公司。

从我们角度看,我们把数据产品分为三类,这三类构成我们的数据智能市场。

最底层是数据集,并不是简单的卖数据,数据加工方法和交易方法发生了巨大的改变。以前是对数据打标签,现在需要做各种各样的评分,对数据本身的分布,波动性等要做多方面评价。

再上一层是数据模型,也就是算法+数据集,包含营销领域的销量预测、选品。最后是数据应用。对数据能力和软件能力的重新封装,提供一个真正的应用给到最终客户,比如选址、价值管理等。

爱分析:TalkingData现在的产品体系是什么样的?

崔晓波:前台业务还是分行业的,我们现在主要聚焦于金融、零售、互联网和政府这四个行业。

我们有很大的中台团队,主要是数据平台和应用数据科学。

数据平台包含智能数据商店、数据科学自动化、数据科学工具及云平台的运维。其中,智能数据商店中主要提供的是封装的数据产品,有我们自己研发的也有第三方的。每个产品都是与业务场景相结合的,一个业务场景下有若干场景应用模型,模型会包含数据集。

应用数据科学主要服务数据的供给方、数据源厂商,这方面有很多合作伙伴在做联合建模。我们会提供沙箱环境,他们在上面建模,最后做出的产品也会放在我们的智能数据商店。

TalkingData现在的核心就是数据产品,前端和后端的成果最后都会在数据商店进行统一管理、计费和结算。

倾向于提供轻量级产品,头部客户采取分润模式

爱分析:在具体服务客户时,最底层的基础设施,TalkingData会去帮客户做吗?

崔晓波:之前我们一直想做,去年开发一个叫智能营销云的产品,类似第一方的DMP,把客户的全域数据都管理起来。我们投了很多资源,但最后放弃了。

这个市场是存在,但竞争比较激烈,还是个纯软件市场,工程非常重。从ETL开始,每个项目几乎都需要投入5-10个ETL工程师才能做。而且,这种项目往往是大客户,需要各种定制。

爱分析:TalkingData会更倾向于提供轻量级产品?

崔晓波:产品化上,我们更倾向于做轻的,TalkingData现在大量SaaS产品和轻标准化交付产品。只有特别标杆的客户,才会去做特别重的业务。

愿意做大客户一方面是需要拿需求,大客户是行业领先,他们能给予我们很多行业先进洞察,了解整个行业发展趋势,需要什么样的模型。另一方面,大客户具有灯塔效应。

此外,大客户做到最后一定是价值导向,最后一定不是做项目,而是分润的模式。

爱分析:针对大客户的定制化需求有没有可能降低?

崔晓波:很难,Palantir都无法降低定制化比例。

从企业的角度,我觉得最终是个平衡,需要有几个大的客户,但真正赚钱需要有长尾客户。大客户和长尾客户要能够形成一种互动关系,利用大客户的能力去覆盖长尾客户。

大客户都希望能力输出,不甘心于只用数据服务自身,往往希望能增加新业务,将自身的运营管理、供应链能力对外输出。

标杆客户,一方面有足够的需求,另一方面他对行业有足够的辐射力,完全可以通过这些标杆客户去辐射到长尾客户。

爱分析:很多公司都想做成分润模式,按效果进行付费,但很难做到这一步,TalkingData能做到的原因是?需要具备哪些能力?

崔晓波:关键是需要帮客户计算出来我们提供的服务价值。我们从第一天就特别注意帮客户测量效果。

很多大数据企业服务客户的时候存在一定的误区,上来先承诺一个很高的目标,但这个目标其实是无法承诺的,因为那是一步一步优化的结果。我们进去不承诺这个目标,只是和客户之前情况相比,通过一次次测试,然后提供给客户优化建议。

从能力的角度,如果只是提供软件,这条路几乎不可能。TalkingData提供的是特别综合的能力,包含软件、数据、服务。未来两年我们需要重点解决的是流量问题。

目前重线下服务的企业不太关心线上流量,他们有几千家门店。不依靠线上流量,我们只需要把线下流量盘活。

爱分析:国内客户一般愿意为效果提升付多少费用?大概的比例?

崔晓波:与业务情况有关,客户只愿意付增量部分。一般对零售企业来说,愿意支付的费用是增量部分的3-5%。

爱分析:TalkingData会去帮助客户做代运营的工作?

崔晓波:运营还是太重了,我们自己不会去做。我们现在到客户现场主要是解决这几方面的需求:第一是顶层设计,第二是指导运营工作,如何做数据分析、活动规划。

爱分析:现在TalkingData主要是做营销这个应用场景?

崔晓波:营销是最大的部分,第二是风险相关的,反欺诈、风控等。TalkingData现在也开始提供Fintech产品,提供TalkingData行为分析,反欺诈模型。

第三是人口相关的场景,我们在统计局做人口模型,优化第七次人口普查的效率。

爱分析:今年开始去切入风控是怎么考虑的?

崔晓波:我们做风控的方式和其他公司不太一样,我们是带着业务前进,如果单纯做风控模型还是挺难的,没有办法形成闭环。

原先我们觉得如果做业务,一定是与别人互斥,后来发现不是这样的。我们现在与这些互金公司合作,形成的模型同样可以放在我们的数据市场销售。互金公司的诉求不是模型收益,而是希望越来越多人使用,可以使得模型越来越准。

爱分析:TalkingData未来路径上会更加偏向IBM还是Oracle?

崔晓波:我觉得都不会,TalkingData会去做些全新的道路。

数据安全和定价是当前主要问题,通过技术手段方能解决隐私问题

爱分析:整个营销市场空间很大, 但大部分份额都被Facebook这类广告平台占据,TalkingData是如何考虑这个市场的?

崔晓波:前几年的确是流量为王,但我们认为未来几年,数据价值会逐步提升上去,整个营销会变成一种新形态。

我们看到的是两端都有痛点,广告主和媒体都不太满意,数据不透明。我们认为最终会出现一些数据平台,替代传统的广告代理模式。

爱分析:整个数据服务市场现在处于什么阶段?还存在哪些问题?

崔晓波:从需求方角度来看,整个市场已经处于爆发阶段。很多客户都会表示,需要很多外部数据来补全业务场景。

以零售为例,零售业其实很缺数据,虽然有很多会员资料和交易数据,但仔细评估发现,他们数据质量很低。从店面和POS收集到会员资料,准确度很低。

所以,我们做数据工程,第一步往往都是要帮他补全这些数据资料,这里面会产生大量需求了,需要用技术方法去补全和增强数据。

我们发现,头部客户对数据重视程度很高,而且能力成长非常快。像我们服务的KFC、全家、BestSeller等公司,不管是数据工程还是数据科学能力都很强,他们对服务要求很高。

市面上并不缺乏供给方,供给方有TalkingData、运营商、银联、国政通等公司。

现在的问题是中间环节,供求两方无法实现对接,主要是两个问题。数据安全、隐私保护的问题,和数据定价的问题。这两个问题解决不了就无法实现数据流动。

前两年,很多人探索做大数据交易所,其实基本上证明是失败的。因为本质上这件事情就行不通。

第一,数据交易所拿出来交易的是原材料,原材料基本没有交易价值,中间平台不能对原材料产生增值,没有溢价。数据又是可以拷贝多份的。

第二是真正有数据的公司,不愿意拿数据做交易,比如BAT。

我们认为,中间的问题不是靠所谓的运营或者商业来解决,要靠技术来解决隐私保护。

欧盟发布GDPR之后,所有美国公司都在做GDPR合规,美国这个产业链迅速发展起来。国内这些法案也在制订当中,我们认为这些法案出台后会对整个市场有明显的放大作用。

按照我们理解,数据安全分为三层。最底层是合规层,隐私数据做保护,不能出PI信息等。往上是合规的数据连接,也就是ID-Mapping,比如差分隐私、同态加密等。

再往上是基于模型的框架,我们和MIT的一个合作项目叫开放算法库OPAL(Open Algorithm Library ),解决的核心思想是可以让在解决隐私保护、ID匹配的情况上面的应用,保证数据不流动,算法流动,解决联合应用数据问题。数据的几方同时使用一套技术框架,来解决数据安全的问题。

OPAL定义了一个算法包,这个算法包可以控制数据查询,授权哪些公司查询哪些数据。所有查询的底层全都是基于区块链,所有操作都是可审计、可查询的。

这种方式可以算是新一代的数据交易所,基于技术解决了数据安全和隐私保护的问题,同时把供应方和需求方连接到一起,还能够计算出数据的价值。

爱分析:数据定价问题如何解决?

崔晓波:先要从需求方衡量好价格,然后交易所才能撮合。我们基本上是从对需求方业务产生多大价值,反推回来做定价的。数据不是靠供需关系决定,而是靠场景决定的。

我们现在正在做一个很复杂的数据模型,主要是计算出主数据。所有交易所中,只有几种或者几十种数据会被频繁交易,这部分数据是动态定价的。其他数据我们觉得更多会是成本定价。

数据服务市场未来会呈现高集中度,基于数据源做增值服务的公司机会最大

爱分析:在您看来,整个大数据市场分为几类玩家?

崔晓波:第一类是软件公司,包括很多新型做数据科学平台的软件公司,这些公司进展都很困难。因为它本质还是软件。稀缺的时候,客户还愿意花费几百万购买,但供应越来越多的时候,趋势是毛利率越来越低。

第二类是纯数据源公司,我觉得这类公司这两年会发展很好,但是未来会遇到一些问题。数据是具有黑洞效应,大数据源公司会慢慢兼并小数据源公司。

第三类是做各种数据增值的公司。我觉得,未来发展最好的还是以数据源为基础,在上面做增值服务的公司。

爱分析:整个数据服务市场的集中度未来会是什么样?

崔晓波:我个人判断,未来整个市场集中度会很高。

第一,客户的要求是越来越倾向于有品牌、综合能力强的公司进行合作,客户选择的范围会慢慢变小,不会与小公司合作。

第二,在巨头环伺的市场上不会有太多创业公司存活下来,这些公司要么成为巨头,要么就是平台型公司。

数据还是个非常互斥的市场,软件是可以维持平衡关系,但数据这个市场,想做平台级非常难,整个市场会有很强虹吸效应,走到最后肯定是需要资本运作的。一些小平台慢慢会与大平台整合在一起,慢慢拼出一个很大的平台。

爱分析:关于数据科学平台这种新型软件公司,您是什么看法?

崔晓波:这个产品的客群定位有些不清楚,硬核数据科学家不会用,数据工程师也不会用,最多是分析师用来做模型探索,但这个市场就非常小了。

我们觉得刚需不是在模型探索,而是在模型生产化,这里面的难度在于:

第一是工程化,很多模型在小数据量使用可以,数据变大后如何进行过拟和调整等。

第二是模型管理,模型分训练和测试部分,训练部分的管理非常难,特别是现在模型都需要分布式部署,做资源和任务的调配。