数据智能

一览群智胡健：大知识驱动的人工智能将在五到十年内到来

人工智能让人成为超人

2019年04月28日

数据智能

近日，爱分析在京举办了2019爱分析·中国数据智能高峰论坛，数据智能领域众多独角兽企业、投资人和专业人士共聚一堂，共同分享、探讨行业趋势。爱分析邀请到了一览群智CEO胡健进行了主题演讲。

胡健认为，过去几十年，人工智能经历了发展的三个阶段：专家智能、数据驱动的AI、大数据驱动的AI。接下来在五到十年之内，肯定会出现下一代的人工智能的进步，大知识驱动的AI。

现将其主题演讲实录分享给读者。

胡健：非常荣幸爱分析邀请，有机会跟大家分享数据智能方面的思考以及我们在这方面的实践。

人机结合是未来大势所趋

我喜欢两部电影，一个是《终结者》，一个是《钢铁侠》，完全不同的设计场景，最终产生的结果也是完全不一样。

《终结者》设计场景是，机器完全具有智能，要消灭人类，或者奴役人类。

《钢铁侠》是辅助人，是智能的助理。《钢铁侠》产生的结果是，让人成为一个超人，成为美国的英雄。

对人来说，从伦理上的选择非常明确，我们的目标是让机器服务我们，让我们成为超人，而不是让我们成为机器的奴隶。

从技术角度来看，虽然现在的人工智能技术能在很多决策上帮助我们，但是机器更擅长计算、存储以及模式识别的能力，人更有同理心，具备理解、分析和决策能力，这两者是天然的互补。

机器加上人工，让机器取代简单的重复性的工作，让人做一些更有创造性，更加重要的工作。所以无论从伦理角度，还是技术角度来说，我相信人机结合肯定是未来大势所趋。

人工智能发展四步走

但理想很丰满，现实很骨感。某种意义上，现阶段的人工智能属于弱人工智能，就是“弱智”阶段。

当前的人工智能完全是基于数据推理的方式。第一，没法理解人类的情感，没法跟人进行正常乃至深度的交流；第二，无法应对在复杂场景下的决策和规划的问题。

现阶段人工智能的落地都是快速反馈，单场景感知的智能。就像刚出生的孩子一样，看得见，听得见，但是需要长时间的培训才能看得懂，听得懂。

因此，接下来人工智能和数据智能很重要的任务怎么让机器或者软件具有大脑。

整个数据智能或者人工智能发展有四步：专家智能、数据驱动的AI、大数据驱动的AI以及大知识驱动的AI。

第一步是专家智能。60年代的时候，很多专家用一些规则，或者用一些符号逻辑的方式，把逻辑规则化，希望尽可能的用自动化的流程取代工作。

的确，这在很多场景中是有价值的，能够提升劳动效率，但是本身用规则的方式去解决这个问题，专家就只有这么多，写的规则非常复杂，适用性非常有限。

因此，很长一段时间专家库知识库陷入停滞状态。

后来推出机器学习算法，我们在很多小数计算上实现非常大的突破，帮助我们在很多场景中做预测。但此类门槛比较高，需要做特征工程，另外，还要选择不同的算法，它是比较小众的应用场景。

一直到2011年深度学习出现，不需要懂算法，直接端到端的产品，里面具体参数不用设计，直接出成果，直接到大数据驱动的人工智能。

最近一直提“大力出奇迹”，它不是算法的进步，是算力对于数据使用的进步，是大数据驱动的人工智能。

但这种深度学习有很大的瓶颈。

第一，特点性问题，没法解释什么东西起作用，在很多关键的场景中没法应用。

第二，泛化性问题，所谓大数据驱动人工智能，需要大量的数据去学习，才能学出很好的模型。这与人不同，人作为生物，有一套理论初步框架，有一套常识图谱，常识图谱的框架下，给几张图片就能产生非常好的泛化效果。

大知识驱动的人工智能即将到来

所以我们认为接下来在五到十年之内，肯定会出现下一代的人工智能，很多人提到大知识驱动的人工智能。

大知识驱动的人工智能，我们面临的挑战，首先是大。

传统知识库是有限的，但现在有大知识，数据库上云，包括人的数据、物联网数据能够构建知识图谱。

因为一览群智大部分核心人员都是从微软研究院出来的，曾经在微软研究院做搜索、数据挖掘。

搜索是人工智能、数据第一次大规模的商业应用，很多人会问，NLP或者知识图谱的市场规模和视觉相比，哪个大一点？

其实很显然，因为自然语言，知识图谱已经得到证明。搜索这个市场是巨大的市场，搜索本身核心的技术，都在用open的数据构建超大规模的知识图谱，用知识图谱去理解文档，理解用户的查询，最终实现查询跟文档的精准匹配。

本身从搜索角度，它是一个通用的查询的决策引擎。

我们从微软出来以后在想，是否能将这样的技术应用于企业与行业，如何将通用的知识图谱与行业知识图谱相结合，解决行业的问题。这是我们做一览群智这家公司的初心。

解决人工智能应用的核心问题，打造通用知识图谱

最核心的问题，是怎样从海量的多源异构数据中抽取知识，构建关系，把不同的数据进行消歧融合，并构建知识，这是第一个知识构建问题。

第二个问题，怎样理解语义。比如，现在大部分人机对话，siri以及各领域的人机对话，不理解语义，这是现阶段的困难。我坚信接下来利用自然语言处理技术，特别是语义理解技术的快速发展，会形成巨大的突破。就像前几年视觉技术的突破一样。

第三个是知识赋能的问题，有大的知识，怎么和生物技术、和语言技术结合？我们有通用的知识图谱，怎么训练识别特定的引擎，目标是基于四到五张图片能做识别引擎。目前的情况是，现在还需要标注成千上万张图片。

我们的行业类似于搜索行业，我们现阶段要做的事情是落地智能平台。

一览群智智能决策平台包括四个基础产品，分别解决了数据融合和快速打通数据闭环的问题、知识图谱的构建问题、关联分析的问题，以及AI模型的训练问题，即为决策问题。这是基于我们团队多年经验，总结出的一套产品，或者方法论。

具体而言，一览群智智能决策平台辅助决策系统，由“感知-理解-分析-决策”四部分构成。

首先，我们的产品解决的问题是从多源异构数据，从公开的行业数据，包括物联网数据中抽取出结构化的信息，形成通用知识图谱。这过程中我们需要用自然语言理解，以及知识抽取，去构建知识图谱。

当有了知识图谱以后，用基础的机器学习产品，可以降低很多行业人员、从业人员使用人工智能产品的门槛，就能快速的构建决策性产品。

有决策产品以后，产品不是取代人，而是帮助人在决策过程中理解数据，在人机交互中，快速利用人的决策能力。

构建了这样一套框架体系后，用常识图谱结合在公安、媒体具体的细分领域的数据，去赋能行业。

接下来具体讲讲我们在几个细分领域做的应用场景。

知识图谱在各行业中的应用

第一个智能决策平台在公安行业应用。

因为公安有数据，能够商业化落地。当前的功能偏向于事后分析，归类完数据之后，出了案件，用图谱也好，数据中台也好，业务中台也好，抓住犯人。

另外一个场景是银行。

人工智能真正把人从简单工作中解放出来，一览群智智能审单专家系统去年在国内某大型银行成功上线，首次将人工智能技术与国际单证业务相结合，实现了人工智能领域在单证业务中从无到有的突破。

效果非常明显，从数量上看，原来审单团队需要2000名本硕高级人才，现在只需要100名通用人才。而且，审单效率大幅提高，基本杜绝了滞后的现象。对于大量票据，将其关键要素处理出来，同时用知识图谱匹配，这个技术在保险、银行、证券等行业，都有大量的需求。

另外一个是反洗钱的产品。

大家知道反洗钱，整个金融的血液是资金，所有的金融犯罪都是跟资金有关系的，比如说贪污受贿、恐怖性融资等。

所以对整个金融体系，像国家金融监管要求的一样，必须要上反洗钱的系统。

目的很明确。

第一，要做到预防，是通过人工加规则的方式。比如这个人以前没有放款，突然对外打了一笔巨额的资金，可能有问题。再比如你是做苹果生意的，突然给做矿生意的人打了一笔巨额资金，这就需要上报给人民银行。

这些可能的问题，首先要经过人工审核，比如一天一个银行将近八万笔有可能的嫌疑，但是需要通过人工变成两百笔。

现阶段的方式存在的问题是反应很慢。如果用我们的模型，第一，可以快速识别是不是洗钱交易。第二，我们能做到实时交付，可以有效的杜绝金融犯罪的行为。

以上是我们的理解和一些落地的场景。

每一次技术革命，都会带来焦虑，但是，每次的结果都是人活的更幸福。接下来人工智能的新篇章肯定是以人为本，最重要的问题是让机器具有人性，能跟人更好的理解交流，同时让人成为超人，让人的技能得到放大。

谢谢各位。