数据智能

前微软亚研院大牛团队,这家AI公司让机器理解世界

让机器人有人性,让人成为超人

2019年05月24日
调研 | 李喆 崔可家 撰写 | 崔可家
  • 数据智能

 

完善的技术产品体系加上合适的落地场景,一览群智快速将AI落地金融、政府行业。

从推荐引擎开始,AI就在互联网公司中发挥着巨大的价值。而随着互联网+的到来,企业、政府的业务数据化进程不断加快,为人工智能的应用打下了基础。如何通过人工智能赋能政企客户,就成为各创新公司要思考的关键问题。

旷视、商汤、云从、依图,作为“AI四小龙,选择的切入点都是感知层的计算机视觉技术。一方面,是由于深度学习算法的出现以及ImageNet等开放图库为计算机视觉的模型训练提供了大量数据,两者为计算机视觉技术的发展奠定了基础;另一方面,随着线上数据获取难度增加以及增量有限,线下数据化成为趋势,这就为人脸识别、图像识别等技术提供了广阔的落地场景,因此感知层AI公司迅速崛起。

技术的进步以及找到合适的应用场景对于AI公司来说至关重要。除了感知智能以外,随着智能化数据应用的需求不断提升,认知智能在近两年逐渐火热。通过NLP+知识图谱的方式,让机器理解知识,成为认知智能的关键技术。因此,大量人工智能公司也逐步向此方向发展。

201511月成立的一览群智,定位一站式AI产品和行业解决方案提供商,以自然语言处理和知识图谱等认知智能技术为核心,打通感知、理解、分析和决策全过程,凭借创始团队在微软亚洲研究院深厚的技术实力积累以及场景挖掘能力,快速将AI落地金融、政府等行业。

产品矩阵完善,为客户提供智能决策平台

数据行业发展至今,经历了采集、存储、洞察以及决策等阶段,随着企业对于数据的应用不断深入,单点的技术能力已经不能满足企业的全部需求。同时,由于数据种类的增多,对于结构化数据的分析技术也不足以支撑上层应用,因此多项技术融合将成为创新公司的必然选择。

一览群智的产品覆盖了从底层多源异构数据治理融合系统,自然语言处理引擎和知识图谱构建平台,到用于上层的交互式关联分析平台和人工智能算法模型开发引擎,为其切入市场提供了基础。

由于客户需求各异并且对于AI工具接受程度差异较大,因此拥有完整产品矩阵的一览群智并不只是简单的对外直接输出产品工具,而是用产品加服务的整体解决方案满足客户需求。从底层到上层的完整产品矩阵,可以有效的帮助其提升解决方案中的产品化率。

以人工智能模型开发引擎为例,一方面,由于AI模型会不断变化,提供人工智能引擎产品工具可以方便客户根据需求更新模型,减少人力投入;另一方面,人工智能引擎可以赋能一览群智,降低AI建模门槛,提升开发效率,同时不断沉淀已有模型,减少重复开发工作。目前,一览群智整体解决方案的产品化率可以达到60-70%,相对于传统的软件开发商,已经处于较高水平。

微软亚研院背景,技术实力助力认知智能

在开源时代,技术虽然已经不是企业核心竞争壁垒的唯一条件,但仍是企业切入市场、拿下客户的前提和基础。

一览群智首席科学家文继荣、CEO胡健、CTO窦志成均来自微软亚洲研究院,从事大数据、人工智能研发工作多年,在自然语言处理、知识图谱、文本分析等方面有着长期积累,并已经将解决方案落地到竞争激烈、对于技术产品要求严苛的金融行业,整体技术实力较强。

技术实力决定了一览群智可以切入要求较高的认知智能领域。认知智能的关键是让机器理解世界,这就离不开知识图谱。一览群智在服务客户的过程中,会通过通用知识图谱和领域知识图谱相互叠加的方式来进行。

通用知识图谱主要解决解决常识性问题,例如上海属于中国等这类常识。一览群智会通过爬取互联网上的百科数据以及高质量图数据来搭建通用知识图谱。通用图谱的本身并不能直接产生价值,其主要用于对领域知识图谱的补充,因此,一览群智也并没有直接建立大范围的通用知识图谱,而是在行业推进过程中不断完善其通用知识图谱。

领域知识图主要解决企业内部的分析问题,例如某样商品它的原产地是中国,出港港口在上海,一览群智就会帮助企业利用企业内部数据构建领域知识图谱,并结合通用知识图谱对此开展关联分析和业务模型搭建等工作。

整个知识图谱的构建包括知识抽取、知识融合、消歧、关联等环节,这些都依靠算法来完成,对于技术能力有较高要求,一览群智在这方面有较深厚的积累。与此同时,知识图谱的构建离不开对于业务的理解,因此深入场景必不可少。

从业务切入,建立场景壁垒

完善的产品和技术实力为一览群智服务客户提供了基础,但是每个行业应用的场景差异较大,因此深入业务场景成为AI公司发展的必然方向,选择合适的落地场景就至关重要。

现阶段由于技术限制,AI在产业界的应用还是以监督学习为主,同时由于深度学习算法的不可解释性,AI很难去直接用于最终决策,更多的还是以辅助决策为应用方向。因此,有较为标准流程规则的封闭场景更适合现阶段的AI落地。一览群智选择了切入政府和金融。

在政府中,一览群智主要服务于媒体宣传部门,为其提供全媒体传播分析、智能舆情监测分析、互联网情报分析等;不同于传统舆情监测产品中简单的正负性分析,一览群智更多的是利用NLPOCR、知识图谱等技术优势切入舆情公司所不能涉及的场景,为客户提供关联分析功能,构建人事地机构组织的关联分析等。

另一方面,在公安业务中,一览群智选择的是从单一警种出发,深入业务场景,现在主要集中在经侦、刑侦等警种,提供情报线索发现和预警、大数据案件研判导侦和警情案情分析预警。将多源异构数据进行结构化治理,借助专家经验沉淀的模型,迅速协助公安情报导侦。

金融行业,主要应用在智能审单、智能风控与自动授信、智能反洗钱等风控合规类场景中,这些场景在金融行业需求普遍、痛点明确,业务模式相对标准。AI的加入一方面可以有效降低人力成本,简化业务处理流程,另一方面,可以对现有规则进行补充,构建专家知识体系,进一步提升准确性。

深入业务场景的另一项好处是能够通过先发优势、技术优势占据场景,利用对场景的理解积累构建竞争壁垒,一览群智的选择正是如此。

市场前景可期,跨越式增长依靠跨场景能力

政府和金融行业是企业服务领域最为优质的两个客群,数据基础好、需求明确并且付费能力强,一览群智的客单价一般都在百万以上。

其中,金融是重点行业。在一览群智已经成熟应用的四大金融方案中,金融审单是最小但是最独特的一个。审单市场分析,以国有五大行之一的某银行为例,2018年从事风险管理、内审、法律和合规工作的员工数为近万人左右,人力成本近几十亿。考虑到其中包括风险管理等各种岗位,预估在审单场景中每年投入的人力成本在10亿左右,这也是未来的潜在市场。而其他国有大型银行,市场规模也类似。

从目前来看,由于AI不可能完全替代人力,整体市场规模会比50亿略小,但由于一览群智进入该场景较早,并且解决方案已经在国有大银行落地,未来有机会迅速占领市场。与审单领域的小场景但特异性不同,在反欺诈、反洗钱和风控领域等场景中传统方案已经比较成熟,一览群智正在用AI智能逐步替代传统解决方案,市场前景更为广阔。

公安领域,2017年公安部门公安安全预算支出为5800亿元,根据各地信息化投入占比以及大数据投入占比。爱分析认为,每年公安大数据投入在150-200亿之间,未来几年都将呈现高速增长的状态。但是,由于公安内部警种众多,需求各异,同时各地公安独立性极强,因此整个市场呈现出极度分散的局面,这种市场格局虽然为初创公司进入提供了便利,但同时也限制了未来的发展空间。

综上,一览群智目前所切入的市场客户群质量优秀,但是未来要实现跨越式发展仍需要跨越到更多应用场景中。作为拥有完善产品矩阵以及技术能力的公司,一览群智是具备较强的跨场景能力的,但是仍需选择合适的切入方向。

技术产品能力突出,场景理解深入

技术/产品:首席科学家、CEO均来自微软亚洲研究院,研发团队超过100人,并且已经在金融、政企、公安等行业落地,整体技术能力较强。拥有认知层的全栈技术产品,可以进行上层应用的快速迭代开发,产品化率60-70%左右,项目周期一般在3个月左右。

获客:金融领域主要通过直销的方式,政府领域通过直销加渠道,渠道方面包括太极、南天等大厂以及集成商等,目前,客户数量50-60家左右,并且拥有政府宣传领域的中经社、新华社、中国日报,金融领域有国有大银行等标杆客户,整体来看,有一定的获客能力。

客群 :主要服务于金融、政企客户,客单价一般在百万以上,客群质量优秀。

场景 :金融领域主要切入审单、反洗钱等场景,竞争较为缓和,有一定的先发优势,通过数据、模型积累可以不断建立场景壁垒,公安领域垂直警种切入,对于业务理解较深。

跨场景:拥有全栈式技术能力,可以通过技术能进行跨场景赋能,并且已经在公安、金融行业落地,有一定的跨行业能力。

近期,爱分析对一览群智CEO胡健进行了访谈,就一览群智的产品、经营策略,以及数据智能行业发展趋势做了深入交流,现将部分内容分享如下。

从舆情情报分析起家,向企业内部场景延伸

爱分析:从成立至今,一览群智的发展历程是怎样的?

胡健:一览群智成立之初是做搜索业务的,偏舆情、情报方向,与网信等部门合作,利用NLP技术快速将互联网上大量的非结构化数据结构化,比如抽取出人名、地名、商品名、地址等,之后做关联。

之后,我们希望把NLP和知识图谱技术应用在企业,在企业场景中,虽然数据类型非常多,但是由于是有领域知识的,知识图谱可以构建的非常细,最后的交付形态就可以是一套关联分析引擎,能够更好的去发现业务瓶颈,辅助决策分析。

因此,2017年开始,我们就在找场景,要求是,第一,要有充足的预算,第二,必须是蓝海市场,第三,对于AI有需求,最后发现政府、金融和医疗是比较好的场景。

爱分析:一览群智提供的舆情产品与传统舆情监控公司提供的产品有哪些区别?

胡健:如果用传统技术做舆情,那么是一个巨大的红海市场,传统的舆情监测做的比较简单,比如热点监测、正负性判判断等。

一览群智做的偏情报方面,将互联网上的数据结构化,构建重点事件、任务的图谱,基于这个图谱做各类上层应用,不单只是一个舆情监控。

爱分析:做到企业内部,对于技术的要求是否会相对较高?

胡健:可以这么说,因为企业需要的是整体解决方案,难度会体现在两个方面。

一方面,企业内部有结构化数据、非结构化数据,在构建知识图谱的时候对于自然语言抽取和数据挖掘技术能力的要求非常高。另一方面,知识图谱建完之后,上层需要有应用,因此我们有一套智能关联分析引擎,做多维度的分析,最上面一层是业务模型,但是这一层可以是一览群智来做,也可以是别人来做。

爱分析:知识图谱的构建是根据上层应用场景来决定的还是本身就有一些标准?

胡健:都是提前定义好的,比如人方面,会包含姓名、配偶、学校等,之后训练一套NLP模型去抽取。我们有一套通用知识图谱,主要是常识性知识。

爱分析:通用知识图谱的边界如何确定?

胡健:最初我们会选定一个范围,比如Wikipedia,整体的数据量不会太大,之后随着在行业中的推进,模型的积累,我们会不断地完善通用知识图谱。因为在很长一段时间内,通用知识图谱是不直接产生价值的。

爱分析:金融领域主要做哪些场景?

胡健:银行的需求是降本增效,获客主要是依靠流量,所以降本是一个比较好的切入点。比如,我们做的智能审单系统,就是看到银行内部有很多流程型、大作业集中系统,比如贷款审核,原来需要将各种证件扫描,由人来进行审核,但是会有大量重复性、经验性的工作,而我们的系统可以用AI来部分替代人力.

此外,我们在金融领域还有反欺诈、反洗钱和风控领域等场景。比如银行风控中的反洗钱系统,原来是根据规则来进行的,但是大多数是硬规则,考虑的信息不会非常完善,所以我们用机器学习的方式加上人的判断逻辑可以更好的完成这项工作。

爱分析:未来银行是否会考虑自己把能力补上?

胡健:大银行肯定是需要自己做,但是需要借用外部的技术实力,比如我们这样的公司。但是中小银行,比如城商行、各类金融机构自己做性价比不高,所以很多就用第三方公司,我们的SaaS版本就是为面相这类场景的,客户也很喜欢。

爱分析:金融审单场景的市场规模?

胡健:没有仔细算过,但是以一家国有银行的市级银行计算,有1万多人从事审单业务,还不包括外包人员,能取代30%就是很大的市场了,此外还有保险行业。

爱分析:公安领域主要做哪些场景?

胡健:公安是一个分散市场,每个地方都有自己的信息化系统。

一览群智是从垂直警种做的,比如反恐、经侦、刑侦。因为公安内部有很多结构化和非结构化数据,结合数据治理能力将数据整合后,建立知识图谱、关联分析引擎,做判案模型、预测模型。我们的智能决策平台是原来专家系统的升级版,因为底层的数据都已经治理好了,可以根据规则很快的配出模型来。

爱分析:一览群智的产品矩阵是怎样的?

胡健:一览群智的出发点是做智能决策平台,因此我们要打通从感知到理解到分析到决策的整体能力,形成一个闭环。

感知方面,要解决的是企业内部多源异构数据的融合问题,因为数据治理是非常困难的,必须要有工具来做,因此我们有数据融合治理平台。

理解方面,会利用知识图谱来进行,最难的是知识图谱构建过程,包括信息的抽取、融合、消歧、关联等工作,这些都是靠算法来解决的,所以我们有一个知识图谱构建平台。图数据库这块我们是不做的,会采用TigerGraph,还有一些开源图数据库。

分析方面,会有一套关联分析引擎,把数据关联度用知识图谱的方式做可视化关联分析。

决策方面,用内部AI工具,降低AI的使用门槛,同时,可以将内部的模型沉淀下来,提高AI算法落地的效率,帮助客户实现AI建模的傻瓜化、组件化、开盒即用

爱分析:如何考虑产品标准化的问题?

胡健:越底层的产品越容易标准化,但是越往上层,需求的差异就越大。比如AI建模里面,抽取各种属性的NLP模型就是标准的,但是延伸到具体的业务场景中,就不是标准的了。