TalkingData崔晓波：数据服务市场未来会呈现高集中度，基于数据源做增值服务的公司机会最大-爱分析

崔晓波将于4月21日参加爱分析举办的“2018·爱分析中国大数据高峰论坛”，欢迎大家参会交流（在本文留言区留言，我们将选取3个精彩留言赠送本次论坛门票）。

过去一年，崔晓波带领的TalkingData确定了两大战略方向：行业聚焦和All in 数据产品。

2013年进入传统企业市场的TalkingData，依靠服务移动互联网客户积累的数据，用数据+咨询方式服务传统企业客户，覆盖金融、地产、零售、汽车、旅游等多个行业，拿下了很多行业头部客户。

当大数据行业处于早期发展阶段，同时在多个领域尝试是非常有必要的，但当整个行业趋于成熟，特别是2017年，整个大数据行业进入到与各行各业深度融合的阶段，对客户业务场景理解的要求不断提高，服务每个头部客户都需要一定人力投入，对创业公司的考验陡然上升。

尽管TalkingData将整体团队从300多人增加到500多人，但还是很难支撑多个行业业务同时迅猛发展，受困于人力，不得不收缩战线，逐步聚焦于金融、互联网、零售、政府这四个数据能发挥最大价值的行业。

在崔晓波看来，行业聚焦的一个主要目的是要产品化，只有这样才能提升整个公司的产能，引进更多合作伙伴，快速发展壮大。在开源大趋势背景下，传统软件产品这条路已经走不通，只有数据产品才能构建核心壁垒。

因此，TalkingData将整个公司的重心都放在数据产品的研发上。

TalkingData将数据产品分为三类：数据集、数据模型和数据应用。数据集是基础数据服务，数据模型是“数据+算法”的服务方式，如风控反欺诈模型、销量预测模型等，数据应用产品直接对应具体场景，如用户价值管理等，“场景+数据+算法”的形式。

在具体场景上，TalkingData除了营销之外，开始向人口统计、风控等其他业务场景延伸，持续不断开发基于场景的数据产品。

近期，爱分析对TalkingData创始人崔晓波进行专访，他对TalkingData的业务布局、未来战略，以及数据服务市场未来趋势、数据安全与数据定价等问题进行阐述，现将部分精彩内容分享。

重点做数据产品，聚焦金融、零售、互联网、政府四大行业

爱分析：TalkingData过去一年业务上哪些进展和变化？

崔晓波：过去一年，整个大数据市场非常好，不断涌现新的客户和新的需求，但我们自己的产能出现问题，太多项目接不过来。去年下半年，我们做的最多的就是砍项目，将重心放在数据产品上。

SAP、Salesforce等公司都会经历这样的阶段。刚开始做项目满足客户需求，后来开始产品化。产品化之后产能才能提高，慢慢才会有更多的合作伙伴愿意做销售和交付。

爱分析：为什么会选择数据产品这条道路？

崔晓波：我们认为软件是无法形成壁垒的，即使Oracle这样的大型软件厂商，在国内也呈现下滑趋势。传统软件这条路已经走不通了。真正有能力的还是拥有数据资源的公司。

从我们角度看，我们把数据产品分为三类，这三类构成我们的数据智能市场。

最底层是数据集，并不是简单的卖数据，数据加工方法和交易方法发生了巨大的改变。以前是对数据打标签，现在需要做各种各样的评分，对数据本身的分布，波动性等要做多方面评价。

再上一层是数据模型，也就是算法+数据集，包含营销领域的销量预测、选品。最后是数据应用。对数据能力和软件能力的重新封装，提供一个真正的应用给到最终客户，比如选址、价值管理等。

爱分析：TalkingData现在的产品体系是什么样的？

崔晓波：前台业务还是分行业的，我们现在主要聚焦于金融、零售、互联网和政府这四个行业。

我们有很大的中台团队，主要是数据平台和应用数据科学。

数据平台包含智能数据商店、数据科学自动化、数据科学工具及云平台的运维。其中，智能数据商店中主要提供的是封装的数据产品，有我们自己研发的也有第三方的。每个产品都是与业务场景相结合的，一个业务场景下有若干场景应用模型，模型会包含数据集。

应用数据科学主要服务数据的供给方、数据源厂商，这方面有很多合作伙伴在做联合建模。我们会提供沙箱环境，他们在上面建模，最后做出的产品也会放在我们的智能数据商店。

TalkingData现在的核心就是数据产品，前端和后端的成果最后都会在数据商店进行统一管理、计费和结算。

倾向于提供轻量级产品，头部客户采取分润模式

爱分析：在具体服务客户时，最底层的基础设施，TalkingData会去帮客户做吗？

崔晓波：之前我们一直想做，去年开发一个叫智能营销云的产品，类似第一方的DMP，把客户的全域数据都管理起来。我们投了很多资源，但最后放弃了。

这个市场是存在，但竞争比较激烈，还是个纯软件市场，工程非常重。从ETL开始，每个项目几乎都需要投入5-10个ETL工程师才能做。而且，这种项目往往是大客户，需要各种定制。

爱分析：TalkingData会更倾向于提供轻量级产品？

崔晓波：产品化上，我们更倾向于做轻的，TalkingData现在大量SaaS产品和轻标准化交付产品。只有特别标杆的客户，才会去做特别重的业务。

愿意做大客户一方面是需要拿需求，大客户是行业领先，他们能给予我们很多行业先进洞察，了解整个行业发展趋势，需要什么样的模型。另一方面，大客户具有灯塔效应。

此外，大客户做到最后一定是价值导向，最后一定不是做项目，而是分润的模式。

爱分析：针对大客户的定制化需求有没有可能降低？

崔晓波：很难，Palantir都无法降低定制化比例。

从企业的角度，我觉得最终是个平衡，需要有几个大的客户，但真正赚钱需要有长尾客户。大客户和长尾客户要能够形成一种互动关系，利用大客户的能力去覆盖长尾客户。

大客户都希望能力输出，不甘心于只用数据服务自身，往往希望能增加新业务，将自身的运营管理、供应链能力对外输出。

标杆客户，一方面有足够的需求，另一方面他对行业有足够的辐射力，完全可以通过这些标杆客户去辐射到长尾客户。

爱分析：很多公司都想做成分润模式，按效果进行付费，但很难做到这一步，TalkingData能做到的原因是？需要具备哪些能力？

崔晓波：关键是需要帮客户计算出来我们提供的服务价值。我们从第一天就特别注意帮客户测量效果。

很多大数据企业服务客户的时候存在一定的误区，上来先承诺一个很高的目标，但这个目标其实是无法承诺的，因为那是一步一步优化的结果。我们进去不承诺这个目标，只是和客户之前情况相比，通过一次次测试，然后提供给客户优化建议。

从能力的角度，如果只是提供软件，这条路几乎不可能。TalkingData提供的是特别综合的能力，包含软件、数据、服务。未来两年我们需要重点解决的是流量问题。

目前重线下服务的企业不太关心线上流量，他们有几千家门店。不依靠线上流量，我们只需要把线下流量盘活。

爱分析：国内客户一般愿意为效果提升付多少费用？大概的比例？

崔晓波：与业务情况有关，客户只愿意付增量部分。一般对零售企业来说，愿意支付的费用是增量部分的3-5%。

爱分析：TalkingData会去帮助客户做代运营的工作？

崔晓波：运营还是太重了，我们自己不会去做。我们现在到客户现场主要是解决这几方面的需求：第一是顶层设计，第二是指导运营工作，如何做数据分析、活动规划。

爱分析：现在TalkingData主要是做营销这个应用场景？

崔晓波：营销是最大的部分，第二是风险相关的，反欺诈、风控等。TalkingData现在也开始提供Fintech产品，提供TalkingData行为分析，反欺诈模型。

第三是人口相关的场景，我们在统计局做人口模型，优化第七次人口普查的效率。

爱分析：今年开始去切入风控是怎么考虑的？

崔晓波：我们做风控的方式和其他公司不太一样，我们是带着业务前进，如果单纯做风控模型还是挺难的，没有办法形成闭环。

原先我们觉得如果做业务，一定是与别人互斥，后来发现不是这样的。我们现在与这些互金公司合作，形成的模型同样可以放在我们的数据市场销售。互金公司的诉求不是模型收益，而是希望越来越多人使用，可以使得模型越来越准。

爱分析：TalkingData未来路径上会更加偏向IBM还是Oracle？

崔晓波：我觉得都不会，TalkingData会去做些全新的道路。

数据安全和定价是当前主要问题，通过技术手段方能解决隐私问题

爱分析：整个营销市场空间很大，但大部分份额都被Facebook这类广告平台占据，TalkingData是如何考虑这个市场的？

崔晓波：前几年的确是流量为王，但我们认为未来几年，数据价值会逐步提升上去，整个营销会变成一种新形态。

我们看到的是两端都有痛点，广告主和媒体都不太满意，数据不透明。我们认为最终会出现一些数据平台，替代传统的广告代理模式。

爱分析：整个数据服务市场现在处于什么阶段？还存在哪些问题？

崔晓波：从需求方角度来看，整个市场已经处于爆发阶段。很多客户都会表示，需要很多外部数据来补全业务场景。

以零售为例，零售业其实很缺数据，虽然有很多会员资料和交易数据，但仔细评估发现，他们数据质量很低。从店面和POS收集到会员资料，准确度很低。

所以，我们做数据工程，第一步往往都是要帮他补全这些数据资料，这里面会产生大量需求了，需要用技术方法去补全和增强数据。

我们发现，头部客户对数据重视程度很高，而且能力成长非常快。像我们服务的KFC、全家、BestSeller等公司，不管是数据工程还是数据科学能力都很强，他们对服务要求很高。

市面上并不缺乏供给方，供给方有TalkingData、运营商、银联、国政通等公司。

现在的问题是中间环节，供求两方无法实现对接，主要是两个问题。数据安全、隐私保护的问题，和数据定价的问题。这两个问题解决不了就无法实现数据流动。

前两年，很多人探索做大数据交易所，其实基本上证明是失败的。因为本质上这件事情就行不通。

第一，数据交易所拿出来交易的是原材料，原材料基本没有交易价值，中间平台不能对原材料产生增值，没有溢价。数据又是可以拷贝多份的。

第二是真正有数据的公司，不愿意拿数据做交易，比如BAT。

我们认为，中间的问题不是靠所谓的运营或者商业来解决，要靠技术来解决隐私保护。

欧盟发布GDPR之后，所有美国公司都在做GDPR合规，美国这个产业链迅速发展起来。国内这些法案也在制订当中，我们认为这些法案出台后会对整个市场有明显的放大作用。

按照我们理解，数据安全分为三层。最底层是合规层，隐私数据做保护，不能出PI信息等。往上是合规的数据连接，也就是ID-Mapping，比如差分隐私、同态加密等。

再往上是基于模型的框架，我们和MIT的一个合作项目叫开放算法库OPAL（Open Algorithm Library ），解决的核心思想是可以让在解决隐私保护、ID匹配的情况上面的应用，保证数据不流动，算法流动，解决联合应用数据问题。数据的几方同时使用一套技术框架，来解决数据安全的问题。

OPAL定义了一个算法包，这个算法包可以控制数据查询，授权哪些公司查询哪些数据。所有查询的底层全都是基于区块链，所有操作都是可审计、可查询的。

这种方式可以算是新一代的数据交易所，基于技术解决了数据安全和隐私保护的问题，同时把供应方和需求方连接到一起，还能够计算出数据的价值。

爱分析：数据定价问题如何解决？

崔晓波：先要从需求方衡量好价格，然后交易所才能撮合。我们基本上是从对需求方业务产生多大价值，反推回来做定价的。数据不是靠供需关系决定，而是靠场景决定的。

我们现在正在做一个很复杂的数据模型，主要是计算出主数据。所有交易所中，只有几种或者几十种数据会被频繁交易，这部分数据是动态定价的。其他数据我们觉得更多会是成本定价。

数据服务市场未来会呈现高集中度，基于数据源做增值服务的公司机会最大

爱分析：在您看来，整个大数据市场分为几类玩家？

崔晓波：第一类是软件公司，包括很多新型做数据科学平台的软件公司，这些公司进展都很困难。因为它本质还是软件。稀缺的时候，客户还愿意花费几百万购买，但供应越来越多的时候，趋势是毛利率越来越低。

第二类是纯数据源公司，我觉得这类公司这两年会发展很好，但是未来会遇到一些问题。数据是具有黑洞效应，大数据源公司会慢慢兼并小数据源公司。

第三类是做各种数据增值的公司。我觉得，未来发展最好的还是以数据源为基础，在上面做增值服务的公司。

爱分析：整个数据服务市场的集中度未来会是什么样？

崔晓波：我个人判断，未来整个市场集中度会很高。

第一，客户的要求是越来越倾向于有品牌、综合能力强的公司进行合作，客户选择的范围会慢慢变小，不会与小公司合作。

第二，在巨头环伺的市场上不会有太多创业公司存活下来，这些公司要么成为巨头，要么就是平台型公司。

数据还是个非常互斥的市场，软件是可以维持平衡关系，但数据这个市场，想做平台级非常难，整个市场会有很强虹吸效应，走到最后肯定是需要资本运作的。一些小平台慢慢会与大平台整合在一起，慢慢拼出一个很大的平台。

爱分析：关于数据科学平台这种新型软件公司，您是什么看法？

崔晓波：这个产品的客群定位有些不清楚，硬核数据科学家不会用，数据工程师也不会用，最多是分析师用来做模型探索，但这个市场就非常小了。

我们觉得刚需不是在模型探索，而是在模型生产化，这里面的难度在于：

第一是工程化，很多模型在小数据量使用可以，数据变大后如何进行过拟和调整等。

第二是模型管理，模型分训练和测试部分，训练部分的管理非常难，特别是现在模型都需要分布式部署，做资源和任务的调配。