金融

签约监管机构,成立不到2年的庖丁科技营收将过千万

未来有一天,或许不再需要金融民工

2018年08月10日
调研 | 唐靖茹 李喆 吴永哲 撰写 | 吴永哲
  • 新金融
  • 金融

NLP(自然语言处理)作为人工智能的子领域之一,其技术最先应用在文档密集型的垂直领域,比如金融、法律等行业。庖丁科技便是一家以NLP技术为核心的智能金融信息服务商。

虽然公司成立仅一年半时间,但技术实力不俗,其首席科学家罗平是中国科学院计算技术研究所副研究员、博士生导师,同时担任微信人工智能首席科学顾问。

 
在金融行业,除了少量的结构化数据外,大量的公开信息都以PDF、Word、网页等富格式文档的形式存在。这类数据无法被机器直接理解,因此,大量的数据挖掘、关联和分析等工作只能依赖人工完成。

其中,按数据的呈现形式可以大致分为文本、表格和图片三大类别。

首先,文本的理解主要依靠NLP技术。庖丁科技先对大量的金融语料数据进行标注,然后将经标注的数据灌入深度学习的模型进行不断学习,反复迭代,使机器能更好地理解自然语言,提高准确率。

然后,对表格的自动识别是一个技术难关。以上市公司年报为例,除了格式基本一致的三张财务报表,几百页的年报里通常含有大量的有边框、无边框表格。对于计算机而言,无边框表格的识别难度最大。

庖丁科技从去年11月份开始,利用深度学习标注边框,今年3月推出富格式文档技术,能够对PDF文件表格进行自动识别,并可实现跨页识别。

最后针对图片或扫描件,庖丁科技采用目前相对比较成熟的OCR技术,先将扫描件中的文字转为文本格式,然后再用富格式文档处理技术理解。

签约监管机构和金融行业头部客户

庖丁科技优先开发了金融场景下普遍需求的几款产品,比如智能复核、智能审计、智能搜索等,目前已签约国家金融监管机构、海通证券、国际四大会计师事务所之一等。

其中,监管机构是庖丁科技最先接触和服务的客户。最近,庖丁科技中标证券期货业金融科技研究发展中心“证券文本信息抽取技术研究”课题。服务监管机构,一方面有助于在金融行业打开知名度,另一方面,庖丁科技能借此学习海量数据以及跨行业、更专业的金融业务知识。

在部署方面,庖丁科技目前都是私有化部署,按照不同模块一次性收取部署费用。同时,由于AI模型算法需要不断迭代升级,每年额外收取一定比例的升级费用。新的模块和需求则另立项收费。

在未来的战略发展上,庖丁科技主要有两个思路。第一,扎根金融行业,通过单个产品切入客户内部,不断挖掘客户新的需求,提高LTV;第二,学习美国Palantir的发展路径,在金融领域积累了行业业务知识模型和专有领域语料后,逐渐向整个商业领域进行渗透。

团队方面,庖丁科技目前一共有70多人,融合了语义标注、软件工程、AI算法和金融领域的专才,预计今年整个团队仍将大幅扩招。

近期,爱分析专访庖丁科技CEO高大光,就智能投研的行业趋势和庖丁科技的战略发展进行交流,摘选部分内容分享如下。

CEO高大光,拥有香港中文大学法学院法学硕士学位,曾就职于加拿大鲍尔集团(Power Corporation of Canada)、香港联交所、中信证券。

NLP技术基于深度学习,率先应用金融领域

爱分析:NLP技术的发展大概分为几个阶段?

高大光:简单来说,规则编程是上一个阶段的技术,深度学习是现阶段的新技术。庖丁科技在NLP方面主要以深度学习为主,当然同时,也会加入部分的专家规则。

爱分析:传统规则编程的缺点有哪些?

高大光:对于一些复杂的语义理解的问题,如果写规则,第一条、第二条都还好,但是等到后面写到第一百条,第二百条,工程师就无法管理规则之间的关系甚或冲突。相反,深度学习是非常擅长“记忆”住从输入到输出的复杂映射关系。当然,我们也非常清楚,不能做“拿着大炮打蚊子”的事情。如果规则能解决的问题,我们绝不用更复杂的方法。

爱分析:从深度学习技术突破以来,语音和图像领域的发展相对较为迅速,而文本NLP方面却相对缓慢,一直没有特别大进展,这背后的主要原因有哪些?

高大光:首先,还是基础的数据标注方面的差异。因为图像和语音的标注相对容易,比如教机器识别什么是一只猫,基本上不需要任何知识背景的人都可以完成这类标注工作。但是NLP不同,比如金融领域的数据标注,需要标注的人有足够的金融业务、财会知识等背景。因此,文本领域整个数据标注的门槛实际上会比图像、语音等高很多。

其次,NLP领域必须要选择一个细分的垂直业务领域。相较于在学术研究圈,科研人员关注技术本身,而很少深扎于某一个领域。目前通用层面NLP很难发挥足够的效果,即使是细分业务领域,比如金融,我们仍然需要做巨大的基础技术工作。

爱分析:庖丁科技为什么选择先从金融领域切入?

高大光:纵观数据领域,金融领域一直领跑数据理解领域的认知需求和技术创新。金融行业从1800年已开始依赖数据认知,定价人寿保险以及承销海事保险。金融业是所有商业领域中,数据应用最全面且相对最结构化的行业,源于近代各国政府对资本市场一切商业行为的强制性信息披露要求,更不用说人们依赖商业数据进行收入预测的直接用途。

同时,金融业是一个知识平台,服务面对365行。庖丁科技持续学习理解各特定商业领域知识及大数据,知识得到积累沉淀,形成模型迭代闭环。

换句话说,庖丁科技从AI+金融扩展到AI+各种商业,未来有一定基础。

爱分析:除了金融领域,还有哪些领域适合NLP技术落地?

高大光:目前来看,除了金融外,AI+医疗、AI+法律被提及得比较多。未来我的判断是,语音和视觉的AI技术最终都会走到NLP领域汇合。因为NLP的本质就是理解,而认知和理解往往是最后的事情。比如语音识别,只有加入NLP技术,理解上下文,才能实现自动更正。

如果说近几年,我认为法律领域会是比较优先的一个突破点。事实上,美国近些年发展比较成熟的Legal AI就是一个很好的参照。

爱分析:为什么法律是NLP比较好的落地领域?和金融领域相比有什么区别?

高大光:法律和金融领域很相似,有相对定型的业务及知识架构,便于AI+垂直细分领域开展细分领域标注和学习迭代。

两者最大的区别在于数据源。近几年,国内市场出现不少法律大数据的公司,但是他们共同面对的难题便是国内律所大多不存在公司通用的数据库,大量的合同数据存在于不同律师的电脑内,“数据孤岛”问题比较严重。

优先服务监管机构,为模型训练积累数据

爱分析:庖丁科技主要服务的客群有哪些?

高大光:近两三年,公司将集中精力在行业龙头金融机构,包括监管机构、银行、券商、基金、保险等。

爱分析:在这几类客群中,庖丁科技大概会按什么先后顺序去切入?

高大光:金融机构的很多业务是同质化竞争,需求是共通的。无论是银行、保险,还是券商、基金,越来越多的情况是混业经营。比如通过抽取海量数据,进行关联分析,自动生成同业竞争比较的产品,证券公司的研究部对此有需求,投行部也有,而商业银行的风控部同样也有此需求。

当然,对于庖丁科技而言,优先服务的客群肯定是金融监管机构。

爱分析:庖丁科技的智能产品解决了客户哪些需求?未来有哪些衍生空间?

高大光:对企业而言,开源和节流这两件事情很重要。到目前为止,市场上所有的AI产品/模块都是解决节省成本和控制风险的事,庖丁科技也不例外。但是,由于AI技术系统的成熟,庖丁科技的数据量比传统金融信息服务商所提供的更全面更高效。

美国桥水基金在大数据应用的开拓方面非常领先,从多年前就在内部自建AI团队,其核心就是应用AI技术把更多的文本信息和另类数据加入到基金模块的算法里。如今,随着NLP技术的发展,越来越多的来自深圳、香港和新加坡等地的对冲基金希望如法炮制。未来,庖丁科技可以利用NLP解析的数据直接产生收益,这已经脱离了节流,而属于开源的部分。

爱分析:由于机器学习模型本身是个黑盒子,金融机构的客户对此风险是否有顾虑?

高大光:境外的监管机构很早便开始进行沙盒实验,比如美国的SEC、英国的FCA等。香港现在也一样,国内现在也在研究探讨沙盒机制。简单讲,沙盒就准许金融科技创新机构在一定适用范围内进行测试,结果影响可控。

爱分析:客户在考察评价智能投研产品时,核心看哪些数据?

高大光:AI领域有两个数值很重要,一个是准确率,另一个是召回率。今天,我们见到客户都很关注召回率。通过调整召回率和准确率,客户可自行定义模型输出效果。

爱分析:面对不同的客户时,庖丁科技需要学习不同的语料数据吗?

高大光:目前,我们已经基本覆盖金融行业内标准化的语料,不同行业现在也分团队进行标注,包括特有语料。但是,如果某个客户有一些特殊的关注点,比如在房地产行业需要加几个特有的指标等,庖丁科技会做一部分定制化。

自建标注团队,每一模型训练集在百万量级

爱分析:针对同一语义的不同表达,机器怎么通过训练学习理解?

高大光:机器采用深度学习模型,其核心是学习特征,当机器看得足够多它就慢慢学会了。我们每天看预测效果,我关注结果。

爱分析:训练一个模型,大概需要多少规模的标注数据?

高大光:依据不同模块具体的场景,以目前庖丁科技落地的一个模块为例,从2017年1月开始训练至2017年10月,标注的词组数据量都在百万级别。

爱分析:庖丁科技的标注团队是自营还是外包?

高大光:自营。我们的标注团队目前有30多人。

爱分析:对标注人员的学历有何要求?

高大光:必备基础是会计专业毕业。

爱分析:富格式文档技术是解决如何提取表格信息吗?

高大光:对。在财务报表中,三张表的内容相对固定且内容不多,传统的金融信息提供商依靠人工去抠取、计算获得三张表的一些财务指标。但问题是,剩下几十页、几百页的含有各种附注的表格如何解读,靠人海战术是不现实的。

而庖丁科技利用富文档格式技术,无论是有边框表格还是无边框表格,机器都可以自动提取其中有用的信息,然后利用NLP技术自动关联、自动理解、自动比较。

正因为庖丁科技具备这样的能力,近期刚与四大会计事务所其中的一家顺利签约。

爱分析:庖丁科技在知识图谱方面怎么做?

高大光:跟传统人工构建不太一样,我们是自动构建知识图谱,内部称之为动态资本链图,这是参照美国贝莱德的Real-time Deep Analysis。首先,基于我们对各类金融业务和金融机构自身的了解,庖丁科技内部首先建立知识库,然后按照分类知识去标注各类数据及信息,完成标注后机器自动做关联训练。

庖丁科技正在设计一套认知系统,主要是从各式各样的公开披露文件、企业内部文件中去追踪资本的来龙去脉。

爱分析:OCR技术是自己研发吗?

高大光:OCR是成熟的技术,庖丁科技选择了BAT中的一家进行了合作,他们在OCR方面处于国内领先。

软件按照不同模块收费,另附每年一定比例的迭代优化费

爱分析:庖丁科技怎么收费?

高大光:按不同的模块收费。我们对标美国的Palantir模式,即每个模块一次性按照几十万或上百万的价格卖给客户,然后由于我们的模块是基于AI技术,需要不断地迭代,所以每年会有一个迭代优化费。

如果有新的模块需求,那就按照新的业务模块单独收费。

爱分析:庖丁科技的产品从POC到最终签约,大概需要多长时间?

高大光:我们大多数项目POC是从2017年底开始,最早的一个项目是去年9月份开始,基本上最终签约都是在近两个月发生,早期市场开拓成本大,周期长。

庖丁科技算是这个领域第一批“吃螃蟹”的公司,在最初阶段需要培育市场,得到市场认可。但是,如果是已经签约的客户,深挖客户的商务需求就不需要那么长。

爱分析:庖丁科技为客户提供硬件采购的服务吗?

高大光:大多数金融机构部署我们的AI产品需要采购GPU等硬件,因为传统的CPU读取一份600多页的年报里需要40分钟,而GPU仅需不到1分钟。庖丁科技不提供硬件方面的服务,这部分硬件设施由客户自己采购即可;将来我们可能会跟一些硬件厂商合作,在此方面做拓展。

爱分析:现阶段,客户在采购庖丁科技产品时,走的是哪部分预算?

高大光:传统的IT采购这件事情已经发生十几年,AI的出现其实是打破了这种传统。因为AI不仅仅涉及IT部门,还包括与业务部门的对接等。目前,在很多公司内部,AI相关的软硬件采购都上升到集团领导决策的层面,有专项基金支撑。据我们了解,今年有不少金融机构将花费数亿元专门用于AI建设。

爱分析:工程团队需要去客户现场提供定制化开发吗?

高大光:不用,基本上在公司内部完成。由于我们对于金融场景非常熟悉,所以庖丁科技目前较成熟的产品原型从设计出来就已经能覆盖客户80%-90%以上的需求。

爱分析:通常情况下,庖丁科技为客户部署产品的周期大概在多长时间?

高大光:非常快,我们采取远程部署的方式,几个小时就可完成。

对标Wind和Palantir,今年预期营收过千万

爱分析:庖丁科技的定位是什么?

高大光:我们一直在思考这个问题,目前,一个是新一代的金融信息服务商,类似Wind,第二个是金融机构智能化服务商,帮助金融机构做智能化升级,类似美国的Palantir。

爱分析:定位新一代智能金融信息服务商,庖丁科技与传统服务商的区别是什么?

高大光:传统金融数据服务商提供的数据可以大致分为两类,一类是公开的数据,比如招股书的财务指标等,这部分需要人工进行整理。另一个统称为其他类,比如GDP、国名经济运行数据、房地产指标等,这些数据基本由专门的vendor提供,都是结构化的数据库。

庖丁科技的重心集中在如何从公告等非结构化数据里抽取出关键指标,并且是利用机器自动化完成,而非人力。这个速度会比传统金融信息服务商人工抽取的速度要快得多。比如每年各家上市公司密集出年报的430阶段(上市公司年报披露截止时间是4月30日),庖丁科技能在几分钟内提取出需要解读的数据,而传统金融信息服务商至少需要数个小时。

我认为,现阶段庖丁科技的产品已经能慢慢地改变客户的使用习惯,等到未来量变最后产生质变的时候,咱们再讨论颠覆的话题。

爱分析:庖丁科技今年有哪些目标?

高大光: 各个细分金融领域的头部客户是庖丁科技接下来主要的目标客户,比如在证券领域,庖丁科技已经签下全国前五大券商。

爱分析:收入方面,庖丁科技今年有什么预期?

高大光:今年预计过千万营收。

爱分析:目前,庖丁科技有专门负责BD的人员吗?

高大光:暂时还没有,现阶段主要由公司管理层负责BD。目前招募工作已经开启,市场上此类人才也会逐渐增多。