数据智能

大数据应用,数据整合与数据认知仍是挑战

咨询和产品领域,都会走出大数据应用领域的顶级公司

2018年05月03日
  • 数据智能

近日,爱分析在京举办了2018·中国大数据高峰论坛。针对数据应用的机遇与挑战,爱分析邀请了数澜科技创始人甘云锋、数起科技创始人李明国进行了圆桌讨论。

会上,两位创始人就对数据资产化的理解,大数据平台的建设,大数据落地过程中的挑战,未来大数据应用公司的形态等问题展开了讨论。

现将圆桌论坛的实录分享。

圆桌论坛实录

爱分析:我们进入圆桌论坛环节,就是数据应用的机遇挑战,我们听了张扬和王博士的金融大数据的分享,我们学习了他们两位对政务大数据、零售大数据、地产大数据的应用和见解。接下来我们有请数澜科技创始人甘云锋、数起科技创始人李明国。

两位嘉宾好,两位可以用一两分钟的时间简单介绍一下自己公司的情况。

甘云锋:我是数澜科技的,数澜科技是做大数据应用的公司,聚焦在数据资产化和数据业务化领域,是一个平台型的、面向全行业的数据服务公司,谢谢大家。

李明国:我是数起科技的,数起科技主要是做政府监管方向的大数据服务,谢谢大家。

数据资产化的第一步是数据的打通与整合

爱分析:两位的介绍都非常简短,因为两位都是做大数据应用,目前很多公司做的是数据资产化,我觉得两位对数据资产的方法论,如何把数据转化成资产这一块很有心得,请甘总先分享。

甘云锋:从去年有数据资产化这个概念以来,我们自己一直在做这方面的事情,我们之前就负责阿里集团大数据业务这一块,也见过很多应用场景,现在特别多的人对数据的认知不足,他们不太理解就是那么多的数据从哪来了,它的价值,对未来的业务支撑是在哪。

我们举一个例子,假设我们是一个手机加工厂,我不知道我数据拿出来是什么样子的。它的数据特别多,各个领域的等等各类的数据,天天在产出。这些数据产出归产出,企业希望它直接作用于我业务领域的,优化我的效率也好,做新业务也好,这就是认知上的一个差异,我的数据到来能带来什么价值。

这个过程就是数据资产化,就是把原始的数据,变成业务上能够使用的数据,这就是数据资产。

全世界所有的资产,只有一个资产越用越有价值,就是数据资产。因为它的产生和业务之间是若即若离的关系,你不用数据它就变成了一堆数字,如果你用,这个资产越多,它就越来越有价值。

我们自己在实践过程当中有两个关键的技术点,第一个点就是把数据怎么打通整合,这是目前整个行业都在解决的,任何一家企业,业务系统几十套,分别是不同厂家提供的,怎么把这些数据,甚至包括邮件,包括所有的视频语音等等这些数据给连接起来,打通起来,这是第一步。

第二个点就是把数据打通之后,把这些数据真正有效地组成业务上能够看到的、识别的、使用的数据,这是整个行业都在面临的特别大的挑战。我们把这两个过程,包括从数据打通到数据组织到数据的标签化的过程,再到数据的内部体系化的过程叫数据资产化,这个是为数据应用提供服务。

李明国:数据资产化是去年新提出来的名词,但是数据资产这个事情在这之前提的时间稍微长一点,马云在之前的很多演讲当中提到从IT市场到DT市场,他提出数据是煤、石油以后的又一个资产。数据业务存在很多年,并不是说去年,或者是前年,王总说他们在这个行业里面沉浸了八年做产品,我很佩服。

我们数起科技做这个政务业务也有十几年,当年马云提出来数据科技时代的时候,我们也在思考,数据成为资产,为什么?数据怎么才能成为资产?数据成为资产有一些什么样的特征?刚才甘总也介绍了数据成为资产有几个问题要解决,首先我们回答为什么要成为资产,在座的各位我相信都是和数据业务相关的人,我们要解决两个问题,第一个是数据握手的问题,就是咱们彼此之间,见面的时候大家有一个彼此认识的过程,数据也是一样的。

信息化建设里头存在着一个非常非常严重的问题就是信息孤岛,克强总理提出来要做全国政务信息资源的整合与共享,总理办公会每个月会上这个议题,这个时候我们就想为什么,政府最早搞四大基础库,人口库、法人库、地理信息库、宏观经济信息库,前三个库是最基本的库,做了这么多年为什么还没有打通。其实大家要解决的就是数据能够相互握手的问题。

数据成为资产要解决的,或者说我们的数据资产化以后要解决的一个问题是什么呢?是让业务人员能够读得了数据。现在我们的信息系统经过培训以后,我们的业务人员是可以用的。但是信息系统底层的数据,业务人员,除非是说开发人员,或者是系统运维人员,一般的使用人员是不会用的。所以我认为数据资产化基本的目的是要解决两个问题,第一个问题是相互握手的问题,第二个问题是每个人,或者是叫大多数的人能够读得懂我们的数据。这是我想表达的第一个观点。

第二个观点是说数据作为资产应该具备哪些特征。去年在大数据发展的历程里头,我认为有一个标志性的时间就是去年五六月份是数据堂的事情,好多人说不是一个好事情,但我认为是一个好事情,这对我们整个行业的发展是一个里程碑的事件。数据作为一个资产具备的基本特征,有和我们传统的资产一样的地方,可描述、可交易,以前的数据是不可描述的的。但是数据和传统的资产又不太一样,爱分析的张总也提到了关于数据源的问题,我认为数据作为资产一个最重要的特征,是如果这个数据被卖掉以后,基本上失去资产价值。这个观点可能很多人不认可,为什么呢?咱们做数据服务的人都知道,我可能差一分钟的数据,差一秒的数据,得出来的结果是不一样的。就是截止到昨天的数据推出来是一种结果,到今天新发生的数据推出来是另外一个结果,这就是传统的数据资产不太一样的地方。数据资产的时效性和不可交易性,是和传统的资产不太一样的地方。

大数据平台最终要落实到客户的应用

爱分析:那第二个议题是做数据的资产化很重要的一点就是怎么建大数据的平台,另一方面是把各个领域的数据归结起来,做数据的应用。我们这次先从李总开始,不知道你在数起科技这边做业务的时候对搭建大数据平台这个事情有哪一些心得,如何更有效的搭建大数据平台,包括在过程当中逐步形成产品,逐步降低依赖。

李明国:因为数起科技的出身,是做数据服务,所以我们在做数据平台的时候,其实还是紧紧围绕“用”这个点,这个问题其实刚才邦盛科技的王总在台上讲完以后,我们在说这个问题的时候其实显得有一点多余了,刚才其实王总在台上,他把金融风控里大数据平台的搭建讲的已经非常清楚了,我认为他比我们要领先很多。我们就谈一谈我们在政府监管领域对大数据平台,或者是数据平台的一些做法。

站在应用的角度上,作为一个大数据平台,至少需要具备五个基本的特征---采存管用易。

第一个特征是采,包括采集、清洗、转换,你一定要完成数据到资产的过程。如何把杂乱无章的数据,把外部的一些数据转到他的数据资产目录里面来。

第二个特征是管,数据作为资产,进来的数据怎么管。其实在座的各位或多或少也都知道我们现在的数据泄密非常严重,但在座的各位我相信有80%的人不知道的是我们超过50条的个人信息泄漏,就属于重大违法,可以判三年徒刑,姓名加电话这就属于一条信息,超过50条。就是在数据管理这个层面上我们做的其实是不够的。作为基本平台来讲这是第二个要有的功能。

第三个是存。存在哪,怎么存。

第四个是用,怎么使用,包括BI也好,都是使用的一个范畴。

第五个是交易。

我认为一个基本的大数据平台,最起码还是要具备这五个特征。第二个就是,其实如何搭建一个有效的大数据平台,这个我认为是挺考人的,这也是我们作为创业者,在各行各业里头我们自己目前还在摸索的一个问题。你怎么去给客户搭建一个非常有效的平台,我们现在看到很多的公司,或者是第三方的软件都有一些数据平台,或者是数据管理平台。但是为什么这个平台直接扔给客户他不能用?这其实是作为数据从业者我们的责任,就是怎么能够紧紧的贴近用户的需求,搭建起覆盖整个数据作为资产它的全生命周期的一个平台,这其实是各行各业不太一样的。

爱分析:不管在阿里的时候,还是创建数澜科技的时候,整个数澜科技的团队都有行之有效的搭建平台的方法论。请甘总介绍一下数澜科技的事。

甘云锋:我从另外一个视角来看一下这个问题,就是我们前面讲数据资产化,我给大家举一个数据资产化的例子,大家感觉一下这个平台怎么搭建的。

大家知道现在各种shopping mall都有探测技术,你进去了我都知道你是谁,业界在行业里面有特别多的这样的公司,都来做客流量的分析,就是一个探头在这里,我们所有的进出,上来一个人都知道,一个人什么时候进来的,什么时候出去的,这个数据很有价值的,但它是数据资产,它不是数据资产化。

我们认为什么是数据资产化呢?就是我进去进出,就是把这样的行为人和物场景的匹配关系,把它拉到历史的维度上,把它刻画到历史上的每一个时间节点上这是一个事件,这个事件是基于时空维度产生的。就是在所有的时空纬度上,你会发现这个过程本身就是资产化,带来的结果就是一个人所有的行为都出现了,比如说这个人过去,经常是一个人来到shopping mall吃饭看电影、逛街、购物。忽然有一天两个人同进同出,突然有一天看完电影去了母婴店,后来有一天去母婴店的频率越来越高等等之类的。也许有一天吃饭的人多了,父母来了,带小孩,在这种场景下就是一个资产化的过程,你会发现原生的数据只有三个,但是他带来的数据资产会丰富到几百几千甚至是几万个维度,甚至你购物的心理都会刻画出来,这个人买东西是货比三家,犹豫不决等等之类的。你的消费能力、消费水平、消费习惯所有的东西都可以出来。但是它原生的数据都特别简单,就三个属性,一个是卖货地址,什么时候进的什么时候出的,从数据那个视角看起来,那个价值是巨大无边的,这是数据资产化。

我们的客户会问,你讲的容易,我怎么来把这个东西做起来,有相应的支撑体系呢?我们也有这样的一系列的方法论来支撑。无外乎就是两个东西,怎么把这些数据基于场景、基于时空维度串起来,这个是需要的。否则就没有参考价值了,这是第一个。

第二个有没有一种场所能够给到客户来做这样的数据,加工、开发、建模等等。我们建所有的大数据平台都有这样的工具,都可以做这样的场所,但是很多的客户不懂的,我不懂怎么办呢?我以前Oracle用习惯了,用Spark我不会啊,就是有这样的数据平台是不对的。我们希望一个数据平台,业务平台层面就是数据data-mapping,我们怎么把mapping好的数据做成profile,就是把探测数据到人的整个维度的一个全系的画像。这个就是数据开发。就是有一个开采的平台。

这个开发不需要去改变我客户的知识结构,你想用什么就用什么,我也不需要去改变你以往的存储结构,你以往数据用什么都无所谓,由你喜欢。这个就是我们已经构建的数栖平台,它就是这个全系的、全维度的一个数据开发平台。但有了这个也不够,我有大量的数据做起来标签体系,但怎么能快速生成我的应用,这是一个问题。

比如我是可能是做营销的,也可能是做风控的,还有可能是做消费者洞察画像的,我们把这些叫数据应用。这也是邦盛科技讲的特别好的一个东西,就是我们用什么技术来构建应用。比如说我们要做一个用户画像来洞察这是一个坏人还是好人,利用的就是个人数据资产加上数据技术,然后通过算法和模型计算,把这个人画出来,这就是用户画像能力。我们把这种能力封装进入一个实体,称之为数据引擎。数据加数据技术构成了数据引擎,然后把各种数据引擎呈现在平台里面,客户用的时候特别方便。

以风控引擎举例,风控引擎里有很多场景,比如金融的、企业的、个人的等各种风控场景,数据引擎的应用可以随场景变化而变化的,在场景里面把数据基于场景特征辨证、收检和聚焦,通过标签加数据引擎,我们可以快速生成应用。最后说分析,就是从纯技术层面,它不是一个特别复杂的技术,你牛逼一点的,用MySQL也可以做。再牛一点的就是用阿里的,再高端的也可以。

有了开发平台、数据引擎和自有的数据资产之后,还要打造一个就是数据的应用平台和服务平台,这中间是三点核心能力,包括data-mapping的能力、data-profile的能力加data-service的能力。如果把这三个做起来,一个数据平台基本上就成型了。我们整个平台的构建也是在依据这个数澜自有的理论,把判断的数据放进来,我能够和时空和场景连接起来,基于开发平台把它做成一套profile,再基于一套数澜自有的数据技术把它分割成一些数据服务,最好就是直接应用了,无论你是2B的还是面向实体店铺或者企业,还是2C的面向消费者,都有合适的应用场景,并最终通过数据平台让数据活起来、用起来,当然这也是我们一直想要实现的理想。

爱分析:其实我还想追问一个问题,甘总刚才提到了data-mapping这一点,其实我可以补充一个背景,甘总之前是在阿里专门做大数据的部门,专门做ID-mapping,是很重要的方向。就是大数据落地的时候,在做data-mapping的环节,现在主要碰到哪一些问题,或者是他最大的挑战来自于哪一些方面?

甘云锋:实际上这里面的挑战在于认知,ID-mapping我就不讲了,因为这是我之前在阿里做的,本身也是阿里的核心机密。我讲data-mapping,数据如何做mapping,实际上在数据的认知。

我们在做地产服务的数据发现,比如物业公司希望提升满意度,如何利用大数据提升业主的满意度,这是一个非常需要数据认知的过程。

在大家想象中,业主满意度特别简单,比如业主有没有投诉,有没有报修等来做这种分析。但是传统的满意度分析中使用的都是单一的数据,为业主满意度提升价值特别有限。在地产公司找到我们的时候,希望能够用大数据解决满意度问题,那时候我们提出一个假设,整个地产公司五大服务体,业主、物业公司、供应商、承建商、服务商。如果能把这五大主体之间的关系构建起来,那我提升满意度都可以找到切入点了,就是买了一套房子,带着家人看一个房子,就是五个人去看,三个人满意,两个人不满意,究竟是满意还是不满意。这里面是没有量化的标准,没有对与错之分,我们很难去判断。有一个可能是我把这五个关系之间的实体构建起来,找到任何一个事件的相关数据,这个事件出发交点在哪里,那我们能解了。就是我们把这种事件驱动起来的能力—数据认知的能力。

比如我买了一个新房子,我不满意,我打一个电话过去,我要投诉,我要报修,报修很多问题。那你业主在一个电话里面,会把所有的问题都描述在里面的,电话里面有很多的非结构化的信息,有家人,有小孩,有老婆,有老人等,比如哪个水龙头漏水、进而关联水龙头谁生产的、谁服务的、物业公司是谁、服务周期、供货周期、服务质量等等,所有的数据都串起来以后就知道这是一个批量问题,还是质量问题。但很多问题其实没有对错,要深入进去洞察分析

比如我们注意到有一个很有意思的案例,比如业主说“马桶,你必须要给我往左移五公分”,物业公司就去了,说这个我精装修交付,我所有的楼层,整个小区都是这样的。但业主为什么要移呢?他会说“你看我小孩的浴盆放不进去,你说要不要移?”他说我给你移,但是大家知道这个工程特别巨大,没有对与错,这里面给的就是他有小孩,要放一个浴盆给小孩洗澡,你不移就可能放不进去,所以这就是问题产生的根结所在。数据要被深度的、多维的洞察,才能逼近事实本质,光靠采样分析是发现不了这样的问题。

我把这种能力称之为基于事件的mapping的能力,大量的数据经常都是这样。不断地移动每一个时间节点的事件,对到这个时间去,抽取这就类事件的共性数据,我们把这种方法,总结称为时光倒流理论。这种mapping能力其实特别泛,你习惯性的行为比如你评论的习惯大家知道,比如蚂蚁做风控的时候,也有很多做风控的创新,比如以那个手机屏幕操作习惯、轻重速度和力量都数据都可以做数据的mapping,并最终支撑到风控应用,比如发现操作应用的有一些不是人,是机器,这就是叫data-mapping,基于事件的、基于场景的数据mapping体系,被称之为data-mapping,我们绝大多数面临的现象和数据都是这样的。

这个关系是非常微妙的,我们也叫若即若离的关系,所有的数据业务基本上都属于这种状态,这是我简单的一个理解,跟同行探讨一下。

政务大数据落地的最大挑战是数据握手,其他行业更多是数据认知

爱分析:我们下一个议题是大数据,尤其是大数据应用在具体落地的时候,现在主要碰到哪一些挑战?你认为哪一些挑战是非常大的挑战?在政务领域,政府的数据怎么使用,这里面都有很大的因素在里面。李总来说说政务大数据这个领域,现在落地最大的手段是哪些?

李明国:政府里头,其实面临着一个跟单一行业不太一样的事情是什么呢?政府里头涉及的行业特别多,每个部委都是一个行业,每个部委里面又有很多的系统,不同的数据,不同的系统,这里面第一步要解决的是数据握手的关系。

第二个问题是什么呢?在前面我回答过就是怎么把数据这一种业务实现由数据从业人员使用到每一个人都可以用。这是第二个问题,在这之前,在政府里头我们做过很多,前几年从最早的统计分析业务开始,到后面的我们现在做的一些监管的业务、审计的业务,这个业务,我们就发现一个问题就是说技术人员,或者是说技术型的公司做的一些系统,或者是做的一些模型,未必是业务人员想用的。在这里头又遇到问题了,当你把这些数据类的产品,或者是应用场景推给业务人员的时候,如何让业务人员也不排斥。所以我认为第二点就是怎么能够让业务人员读得懂底层的数据,让他自己可以基于数据做应用。

第三个问题是数据的场景,未来20年是以数据为核心的信息化。那在这一轮信息化里面最难的是数据应用场景的梳理,刚才前面王总也说了,场景梳理两个手段同步推进专家经验和机器学习。

爱分析:我想追问一个问题,我看到群里也有人问到这个问题,李总说到的数据握手,涉及到的部委比较不愿意提供这个数据,不愿意开放这个数据,你判断说这个数据握手的问题解决,更多的是依靠政策方的政策驱动,还是数据应用的厂商推动这个事情?

李明国:就是数据握手这个事,政府用了几十年的时间一直想做这个事情,到现在也很难。刚才你问的这个问题不太好回答,我们自己的经验是主要靠政府的推动,当然协调工作也是政府里头最难做的事情,我做政府的信息化业务做了接近20年,我自己的经验碰到要协调的事情就会特别难,甚至很多公司碰到政府协调的事情就会退出来不做了。

数据握手这个从技术上来讲已经不困难,就是法人也好,自然人也好,资金的也好,项目也好,在政府里头主要是这四个事情,从技术梳理上已经不存在问题。但是如果当地政府不是强力的去推动这个事情的话,解决数据源的问题还是很难。去年国家发改委两办联合发文,就是关于推进政务信息系统的整合和共享,关于推进政务信息资源的共享交办,现在推进的情况来说还不错,它的第一步是实现部委内部,或者厅局委办等内部的数据握手。

甘云锋:我们做其他行业的,面临的问题都特别多,基本上就三大类,一个就是我不知道我自己的数据价值在哪里,这个数据怎么用。这是一个数据的产品化应用问题,我们有时候会比较迷茫,我们总是想当然的要去做一个产品,告诉客户我的产品的痛点,我自己做的时候我跟数澜的员工讲我们任何人跟客户谈,第一不允许给客户讲我们的产品能解他的业务痛点,为什么呢?你不懂他的业务。地产行业别人做了几十年,他业务的痛点绝对不是我们公司懂的。什么能懂呢?你的数据能懂,只有你的数据最能懂你公司的痛点,包括你的决策你的方向。就是他所有的公司的运营都在我前面讲的三大主体里面,就是我们要做的我们跟每一个客户都讲,如果我能帮你完成你的数据资产化,就能帮你把数据资产做好,否则的话就永远做不到数据业务化这个课程。

就像我前面举了一个例子特别简单,就是在做地产领域的时候,我把这五个实体,通过它的投诉、工单的信息打通之后,我们可以是做满意度,结果客户发现我还可以做好多东西,那些东西我们恐怕不懂,他自己都可以去做的比如说做资金管理,做供应商能力管理,做服务商管理都可以。比如做供应商的能力管理,找第三方调研公司,你对这个供应商满意不满意,他的投诉率是多少,都是做这种动作的。但是没用的。只有数据能够知道,满意不满意,你工单里面的全部的东西都知道,我们把这个东西就是基于平台的场景化驱动,我们也把它叫基于数据资产化的场景化的驱动。我们所有的客户,我们喜欢跟客户讲道理,我告诉他我不懂你业务,你的数据能懂你的业务,如果你给我机会我把你的数据资产化,你基于这个数据资产来做数据业务的时候你会发现他的想法远远比我们高。就是我们完成他第一步再去做第二步的时候,你会发现我只去做一个点,结果发现几十个点上百个点都出来了。这个时候你唯一要做的就是做选择,而不是说没有机会做,也不知道要做什么,所以我们把这个推导出来,我们以往大部分是顺着下去的,你提了一个需求,OK,做业主满意度,我做业主满意度要哪些数据,把那些数据搜集起来我做业务交付给到你,第二天领导一换,你这个产品不怎么,我给你重新再做一个,不行的。但是唯一数据资产不会因为你领导换与不换、岗位换与不换而发生变化,不会的。

我们先倒过来以你的业务做一个牵引,我把你的数据全部资产化交付给到你,把数据资产交付给到你,满足你的业务场景。这种应用特别广泛,我举一个标签提示的数据资产给到他,他可以做无数的数据资产运用,来我这个店铺的流量都去了哪里,它对我的贡献有多大,哪一些做资产,哪一些做客户分析,其实这里还是一个认知的问题。

我估计在未来两到三年内,就是国内大部分用的最大的障碍就是对数据的认知和场景化用的认知的问题,这个问题就是学习时间,我简单这样说一下。

爱分析:甘总提到了这个问题,我觉得在2B,尤其是做应用时会很普遍,就是需求陷阱的问题,就是客户的需求和它落地的时候中间有一个很大的鸿沟,李总对这个问题怎么考虑的呢?

李明国:其实会有交叉,刚才甘总说的,我们也遇到相同的问题,是场景驱动还是我们叫数据资产驱动的一个问题,我觉得两部分,其实是都要的,就是我们做政府来讲,我们拿我们做政府审计的例子来讲,最早我们的做法其实是场景驱动,我们会用我们自己的一套方法论,我们总结起来就是三句话,找历史,找矛盾,然后画流程。来把我们所有的审计点找出来。

当然这个过程是拉着客户的相关的项目组成人员,或者是业务专家一起来做的。这是我们做的第一个阶段。第一个阶段其实就会遇到两个问题,刚才甘总也提到了你提炼了这个场景不是每一个业务人员都认可的场景,不认可的时候就会说你,你提炼的场景对他是没有用的。或者是因为政府部门之间的利益,你信息口的人员我业务口就不认,就会遇到或多或少这样的情况,这是我们说的第一个阶段。

第二个阶段,怎么让所有的业务人员都能够自己来提炼,或者是自己来形成一些场景,这就是数据资产化的过程。你要所有的数据整理成业务人员读懂的,无论是单一的也好,实体的数据也好。

在现阶段在政府大数据当中两边都不可废,对于我们数据服务型的公司来讲,你的场景的再次筛选,或者是沉淀的能力,是公司的一个核心竞争力。

有的可以和企业不太一样,在政府进去的时候我拿场景打通,比如说我举一个简单的例子像财政审计,审计部要审所有的财政资金怎么审?我们自己形成了200多个审计方法,我们再去和审计机关打交道的时候最打动他的其实是这种东西。所以我认为在政府大数据领域这两个拳头还都是要的。

数据应用创业要聚焦潜力大的行业

爱分析:不管刚才李总提到说政府领域有很多的部委,有很多的部门,包括数澜科技做的时候定位全行业,在客群的选择上,客群的定位,哪一些客群会优先考虑,满足他的需求,这个上面两位有什么样的看法?

甘云锋:我觉得在我们自己是没有一个倾向性的,但主要还是会倾向于传统公司,传统公司它太了解自己了,做了几十年、上百年一路走出来很清楚自己短板在哪里,应该付出哪一些东西,它特别清楚,特别明白。我们做客群的时候只做传统公司。昨天我们也说为什么不做金融?其他的地产,汽车,零售、化工,我们都有涉及。

它出于这个时间的浪口,大家知道有很多的传统公司,IT时代,它赶上来一点,互联网时代很多东西是彻底错过了,大数据时代它不希望错过,它特别不希望错过。所以这个时间节点,所以这个时候他们特别想,不行了,我再错过我公司都没有了,他太了解自己也太了解他们想要的东西,就是客群我们更多从这个层面考虑的。政府也是一样,一二线头部城市的政府我们也做,上海我们做,杭州我们也在做,北京我们也在做。所以我们选择的标准就是他对数据的本质的方向要认同,不排斥,这样的客户去做的。

爱分析:未来会去考虑聚焦于几个重点的行业吗?

甘云锋:当然会,如果不聚焦的公司初期还可以,到后面就没有竞争力了。就像我们自己的话,单纯的主要是基于零售和地产,也许明年我们金融事业部就成立了。

爱分析:最终还是会去做金融的?

甘云锋:对的。

爱分析:李总对于这个问题,包括客群的定位一起应用场景是怎么考虑的?

李明国:其实这和每个团队的出身也有关系,我是这么看大数据的,其实我们提的人工智能也好,提的大数据也好,本质上还是技术革新。我们做创业的选择还要要符合几个基本特征,第一个就是这个行业体量足够大。第三个如果是还有一些特征的话,可以考虑是否是一个增量市场,就是今天1000亿,明天1200,后天变成2000亿。

第二个竞争,或者是自己的壁垒,要非常明显。就是我们也结合自己的市场,政府大数据在也里面提的比较多,尤其是爱分析把这个政府大数据列到了第二个增量市场里头。那么在政府大数据市场里面也有一些细分,我是这么分的,我认为政府大数据有四个,就是公共服务,像公安,医疗,或者是交通,这些都通称为公共服务市场。第二个是市场监管,各地的信用平台,这都是市场监管的。第一个市场我觉得创业挺难的,里面的大佬太多了。BATJ、华为等传统ISV都在里面。像邦盛科技,他们沉淀八年,有竞争力的传统我觉得可以,其他的创业公司,就是做数据服务的公司慎重进这个市场。我们公司的是政府监管市场,一个是基于上面的分析,还有一个我们认为在今后相当长的一段时间政府会加强监管方面的能力,必然带来的是监管科技方面的投入。

爱分析:政府监管未来是多大的一个市场?

李明国:我们先从政府监管的范围来讲,我们怎么定义。先看政府监管的机构,大家所知道的审计署是政府监管,这次成立的监察委是也是政府监管,一行三会也属于政府监管,其他的还有生态监管、国资监管等等。那我们目前的竞争力主要还是和钱相关的监管,再就是和事相关的监管,这是定位在审计、监察,这个市场的金额不太好讲,但是在今后相当长一段时间内政府监管市场一定是个增量市场。

大数据应用领域,咨询和产品都不可或缺

爱分析:我们之前谈论的都是对现状的判断、分享。那我们下一个议题是涉及到未来的,主要是说数据应用类的公司,这类厂商未来的一个商业模式是什么样的?这个时候还是要去看美国的2B市场,其实我们在我们爱分析这边去看的时候大家会有两个分类,一个是偏向于IBM这个形式,会是一个咨询的先导,更多会是以一个整体的解决方案去服务客户。另外一个是偏向Oracle这种,更多的是一个纯粹的软件,或者是产品的形态去对外提供服务。所以我不知道两位判断说未来大数据应用这个领域的公司,它的形态上会更偏向于哪一个形态?

甘云锋:我最近还跟很多人讨论过好多次这个话题,昨天还在讨论。我们是这样理解这个东西的,现在叫大数据我们现在比较谨慎的提大数据,我们把这个时代叫数据时代。就是大家想想在IT时代的时候,IBM也好、Oracle也好,那个年代所有的核心都是围绕需求来驱动的,就是IT年代就是以需求驱动的年代,但是数据时代是以场景为驱动的。

判断一家公司是不是大数据公司就是一个标准,你提供的产品是需求驱动还是场景驱动,你是需求驱动跟大数据没有相关性,你就是一家纯IT公司。这个东西就是未来要做咨询还是做标准化产品、成熟产品,并没有本质上的区别,对我们当前来基于场景的大数据咨询是必须的,你懂都不懂你东西卖给我怎么用,如果是卖一个成熟的东西是一个典型的需求驱动,你只能满足客户的一部分需求。就是任何一个东西都不会全满足的,就我东西卖给你,能满足你所有的需求,世界上不可能有这样的东西出现,永远不会。

但是数据时代的到来它就特别奇怪,它偏偏就是以场景作为驱动的,你的数据产品能不能给我提供支撑,我们选择的时候也比较谨慎,我们这两天讨论的有一个结论是什么呢?就是在当前时间节点数据时代的初期阶段咨询服务是特别重要的环节,就是一套理论一套方法论不断地总结讨论,不断地告诉他应该这样做,才可能慢慢地往数据操作系统层面走。类似Oracle这样的也做数据操作系统给到你,但是对不起,只能满足你70%到80%的诉求,绝对不能满足你全部的需求。

我们也有投资人,喜欢跟我们讨论数澜究竟要做什么?希望做的是中短期就是DT时代的类似IT时代Oracle这种公司,做数据操作的一个场所,我有一个场所给到你,然后再换一个时间就是做成类似IT时代的SAP等公司,这些产品高度成熟化,提供一些服务,我说这个东西不能同时达到的,所以在当前的那个时间节点,估计还要两到三年,咨询还是特别重要的一个环节。我们远远不足以成熟到像IT年代的Oracle、SAP等公司的解决问题能力,这是DT时代最大的一个陷阱,数据的场景化太过丰富,太过个性化。没有对与错之分的大数据场景就是这样的,解决的就是一个自我感情和心态的问题,我说你好你能解决你好的问题,大部分是没有对错的,供应链有严格的流程、方法论,一套下来,第一步、第二步、第三步,就是严格的流程化。所以IT市场我们把它叫流程管理的时代,DT是场景化管理的时代。所以DT市场就是解决的是怎么用数据来管理场景的问题,这个问题特别难。我先给你做咨询,咨询做好之后你满意了我再给你做实施,就是特别初级的类似IT时代Oracle、SAP的一个小产品仅此而已,未来的成熟度也许会越来越高,我不知道,这个数据技术进步的话应当可以达到相当高的成熟度,这是我的一个看法,很不成熟。

爱分析:你判断说拐点可能会发生在未来的几年内呢?

甘云锋:这个我们还有很多的思考和讨论,我们认为在未来的两到三年,就是很多大的参考都是大数据咨询业务占优势,业务产品无论做得多好,都是单点业务以外的,包括AI的产品,包括风控产品那是做到极致。更大范围还是咨询为主,在未来的两到三年。我们有3331计划,我估计在未来的三到五年之内这个时候有一大波具有初级,就是通用型的一些数据产品会出来,它可能以拐点方式来驱动数据的应用,但是不知道这种数据是怎么样的,我们也一直在探索这个数据形态,不知道会什么样,但是未来的三到五年一定会出现的,我们也在探索,也可能是未来的三到五年就会发布。

李明国:不好回答的问题,是这样的,你说是IBM也好,Oralce也好,应该说都是坚持自己的特色走向了成功,这个问题我倒希望从另外一个角度解读它,我们来谈整个数据业务的生态链条或者是产业链条,我喜欢怎么看呢?我平时看产业我喜欢这样看,回到我们生产力和生产关系的角度来看,我们生产力有三个角度,第一个是我们的劳动者,第二个是生产工具,第三个是劳动资料。

就是在整个链条里面拿这个梳理我们的数据产业,在外面很多人说大数据,我更喜欢说它是数据,在整个数据产业来说它有几个角色,第一是是数据的生产者,就是原材料,这个一定是不会变的。现实情况80%在政府,20%在BATJ,还有小部分的在其他地方,这个是不会变的。

那么第二个是生产工具这个层面,生产工具这个层面咱们了解的现在市面上的很多公司,或者是叫很多做大数据创业的技术公司,像做数据库的、BI分析的、展现工具类的、机器学习工具的等等,都属于生产工具。还有一类劳动者,属于提供数据服务的层面,无论是我们的咨询也好,还是我们做数据的资产化也好,还是做场景的梳理也好,其实这都是这一部分。我们按这个划分来看就比较简单了。

那么作为数据资源的拥有者、原材料的提供方来讲,原材料的所有者属性是不变的。作为数据从业公司,让数据变成资产、让资产成为资本,这是我们可以考虑的。

当然现在有个非常有意思的现象是,现在很多做工具的公司在做数据服务,包括做底层数据库的公司,做BI的公司等等。我们要思考为什么。我想主要原因是现阶段,或者是一定时期内做生产工具的这一类公司是比较难的。比较难的原因是开源,google、BATJ这些大的公司把很多的生产工具开源了,如果你做的这一套工具刚好和他开源的一样就完蛋了。但是我相信这里面一定有坚持下来的,最终一定会有专注于生产工具的产品公司出现。

为什么呢?如果是说回答主持人的刚才的问题,最终IBM式的,还是Oracle式的,我认为两个都会走出产业的顶级公司。

爱分析:谢谢李总的分享,我还要追问一下,刚才你提到了会出现这种产品化的公司,我们看到其实过去中国的软件发展了很多年,一直很难出现这种产品化的公司,我们能看到的产品化的公司基本上都是国外的大的厂商,这里面你判断未来可能会出现产品化的公司吗?第二这个时间节点会在什么时间?

李明国:因为工具层的创业,尤其是基础平台层,就是BATJ啊,它有自己先天的优势,它自己本身的生产性的业务,已经积累了大量的工具。拿这个一开源对于同类的创业公司是坏事,它拿这一类产品出来卖,那更是灭顶之灾。大家知道有一个是数梦工场,它整个的转化不是很好,它就是把阿里的很多的产品通过数梦工厂往外卖。怎么走出来不敢说,但是说走到多久,我认为这个行业不会太远,我认为未来最多两年时间,能走出来就走出来了,走不出来这一类公司可能以后就比较难了。

因为整个的产业需求已经过去了,是这样的一个答案。

爱分析:谢谢李总的分享,有一位朋友提问的是李总,他的主要的问题是刚才李总提到了数据资产变卖的时候,其实数据的资产价值会失去了,现在在现实当中,数据的黑色产业也好,灰色产业也是存在的。另外国家在鼓励数据的流通和数据的开放,这时候数据的流通和数据的变卖有哪一些区别,以及未来数据流通的方式方法,你有哪一些看法?

李明国:大家都是大数据行业的,我相信前几年每年大家都去贵阳数博会。贵阳成立了第一个数据交易所。而且数据交易这个在全年叫得非常响,但是现在政府不提这个事情了。为什么?其实政府也意识到了数据的问题,包括去年大家熟知的数据堂事件。

这个里头其实就是牵扯到整个数据产业,我认为它也类似于说我们从原材料到半成品到成品这样的过程,半成品、成品是可以销售的,原材料不可以销售。

灰色,或者是黑色的这个产品,我认为任何做创业者不要去做这个事情,不定哪一天,一旦被政府叫停,这种违法的事情就是灭顶之灾,你自己耗费的精力,你之前所有的投入都会破灭。这个灰色产业链,或者是黑色产业链在地下非常成熟,但这不是我们创业者要做的事情。

但是在这个里头,作为我们数据类的公司来讲其实可以把原材料包装成数据产品可以做二次销售的,包括我们信用公司做的信用模型,包括我们各个行业的加工的产品,我认为这一类的是可以销售的。更多的点,一个是我们做的2B也好,2G也好,这类定点的数据服务,还有一类数据类的产品一定会流通起来,我认为原材料不会流通,经过原材料包装的数据产品一定可以流通的。

爱分析:谢谢两位嘉宾的分享,我们今天大数据高峰论坛今天就到这里结束。今天谢谢大家