人工智能

AI格局3年定型,捷通华声能否成为十项全能冠军?

可能是国内唯一一家多年不亏损的AI公司。

2017年01月10日
撰写 | 京京
  • 人工智能
  • 人脸识别
  • 图像识别
  • OCR
  • 语音识别
  • 捷通华声

AI格局3年定型,捷通华声能否成为十项全能冠军?

在人工智能领域,有历史的公司并不多,捷通华声算一家。

1989年,毕业于清华大学环境工程系的张连毅,到紫光集团的前身——清华大学科技开发总公司任职,负责推广清华的OCR(光学字符识别)软件。1992年,担负着将清华OCR技术商业化的使命,张连毅创建了北京清华文通技术有限公司。

1992年底,就在公司发展势头正旺的时候,张连毅选择了出国深造,后来经历了创业、打工、读书种种波折,6年后,他决定回国,重新创业。

1998年8月,张连毅在朋友的帮助下,在中关村留学人员创业基地的两间小房子里,创建了捷通软件,还做熟悉的“老本行”——汉字处理和录入。

同年,捷通推出了“录易汉语智能输入输出系统”,成为国内第一家将语音合成、语音识别、手写识别技术成功地集成在OA办公软件系统的公司。

然而,当时的OCR市场已经有了众多竞争对手——依托中科院自动化所的汉王科技、同门公司紫光集团和北京文通,还有摩托罗拉。

由于OCR技术几乎是和扫描仪绑定在一起,因此定位软件开发的捷通逐渐也卖起了扫描仪。不过,张连毅很快意识到,硬件销售风险很大,利润越做越薄,而且捷通一直缺乏核心技术,于是2000年底,在硬件销售额迅速蹿升时,张连毅选择了转型,他联合著名中文语音专家吕士楠教授,一起成立了北京捷通华声语音技术有限公司,要做语音合成。

当时,科大讯飞刚成立一年。

三次转型,从语音合成到全方位人工智能

从2001年开始,捷通华声在国内语音市场占有率一直保持在20%左右,超过了IBM、摩托罗拉等国际巨头,仅次于科大讯飞;服务客户包括国航、华北电网、山东铁通、农行、建行、中国银行等企业,合作伙伴包括IBM、英特尔、海尔集团,以及Nuance前身Scansoft、法国语音技术公司Acapela,产品和技术销往美国、新加坡、日本等地。

然而,一没借助资本、二没拥抱政府高校的捷通华声,很难与资源和技术实力雄厚的科大讯飞抗衡。光靠语音合成,很难养活企业。于是从2002年开始,在兼顾语音合成、语音识别、OCR、手写识别的同时,捷通又做起了SP(服务提供商),也就是以前功能机上的手机游戏,一做就是9年。

2011年,随着苹果推出Siri语音助手,语音交互得到了一定程度的市场预热。张连毅意识到语音技术的机会要来了,于是再一次决定转型,砍掉游戏业务,全力进军人工智能。

按照张连毅的理念,只有一项技术对于企业来说十分危险,一旦被竞争对手赶超,企业将很难生存。而人工智能包含一整套技术,相互之间有很强的关联性,而且在很多场景下都需要同时使用,因此,不同于其他专注单一技术的AI公司,捷通华声要做全方位的人工智能。

2011年,随着第一笔风险资金的注入,捷通华声推出了全球首个全方位人工智能开放平台——灵云平台(AIcloud.com),将智能语音交互、图像识别、生物特征识别、语义理解等技术整合起来,提供一体化的AI技术云服务及各种解决方案。

2013年,清华大学产业基金入资捷通华声。凭借清华在人工智能领域雄厚的研究力量,捷通华声先后与北京清华工业研究院、清华海峡研究院共同创建灵云人工智能研究中心,致力于促进清华大学科技成果转化,提升灵云核心竞争力。

十项技术,六大领域,三种方案

如今,灵云平台提供的人工智能技术涵盖语音识别、语音合成、声纹识别、语义理解、OCR、手写识别、人脸识别、指纹识别、机器翻译、数据挖掘十大方向。

AI格局3年定型,捷通华声能否成为十项全能冠军?

表1:捷通华声主要业务产品,来源:公开转让说明书

服务客户覆盖通信、金融、互联网、能源、交通、IT、医疗、教育、政府、汽车等众多行业,包括国家电网、中石油、中石化等大型国企,华为、中兴等信息通信供应商,建行、中信、华夏、太平洋保险等金融机构,网易、京东、爱奇艺等互联网公司,以及宝马、奔驰、比亚迪等国内外车企。

AI格局3年定型,捷通华声能否成为十项全能冠军?

表2:捷通华声服务领域及代表客户,来源:捷通华声官网

产品生态体系包括灵云公有云服务、全智能能力平台、以及智能解决方案,其中,公有云服务的运营采用标准能力免费开放以及能力方案定制服务两种,而全智能能力平台是以私有云方式部署的能力平台级产品,智能解决方案则是以全智能能力平台为基础,开发针对用户各类需求的综合解决方案。总体来看,即公有云、私有云以及解决方案三种形式。

营收及利润增长较快,整体毛利率有望提升

从财务表现来看,捷通华声是高科技企业中少有的连续几年盈利的企业之一。

AI格局3年定型,捷通华声能否成为十项全能冠军?

表3:捷通华声2013-2016年上半年主要财务指标

根据捷通华声股转书及半年报数据,2014年、2015年、及2016年上半年,捷通华声分别实现营收3820万、5329万、3368万元,净利润503万、1068万、391万元。

AI格局3年定型,捷通华声能否成为十项全能冠军?

表4:捷通华声2014年到2016年上半年营收及净利润增长率

从营收和净利润增长率来看,近两年内两项财务指标增速明显加快。据张连毅透露,2016年全年,捷通总营收将达7000-8000万元,未来营收增长将保持30%以上。

AI格局3年定型,捷通华声能否成为十项全能冠军?

表5:捷通华声2014年到2016年上半年营收结构及毛利率

注:2014年和2015年1-10月,“其他业务”为无线增值业务,2016年上半年,“其他业务”为智能移动及技术维护业务。

从营收结构及毛利率来看,2014-2016年,捷通华声软件业务营收占比一直保持在50%以上,并在2016年上半年有小幅提升;无线增值业务虽然在2011年已经不再投入,但是由于长尾效应,仍在产生收入,但下降幅度明显;硬件业务在2016年还将保持在2000万元以内,在总营收中的占比将明显下降,有望带动整体毛利水平的提升。

技术融合大势所趋,全能冠军之路挑战重重

捷通营收持续增长,在一定程度上反映了近两年人工智能产业应用的火热,而捷通选择的技术融合之路,也正在成为这一领域的发展趋势。

首先,从供给端看,不仅科大讯飞、BAT等大公司陆续推出了包含语音、图像、语义等在内的综合性人工智能平台,多家软硬件AI技术创业公司也致力于整合多项AI技术提供给行业客户,比如做机器人操作系统的图灵机器人,做机器人软硬件方案的ROOBO智能管家等。

其次,从需求端看,包括金融、安防、电信等率先应用的行业对AI技术的需求也是全方位的,比如对于身份的认证、识别,更是需要语音、声纹、人脸、手写识别等多项技术联合使用,多重验证。

在这样的背景下,深耕行业多年、且背靠清华技术资源的捷通优势明显。不过,在几项新兴技术领域,捷通也面临着技术研发、产品打磨和推广,以及闭环构建等一系列挑战。同时,在技术融合优势发挥出来之前,捷通仍然不可避免地要和各个领域的玩家进行正面PK。

语音合成、语音识别等领域,有科大讯飞、云知声、思必驰等通用和垂直型技术提供商;OCR和手写识别领域,有汉王科技、紫光集团等老牌企业;智能客服领域,有小i机器人以及Udesk等几家逐渐转向智能客服的云客服公司;而人脸识别领域,又有旷视、商汤等实力较强的新兴企业。

不过,正如张连毅所说,这些公司可能要做百米冠军、跳远冠军、跳高冠军,而捷通要做的是十项全能冠军。

由于产品线众多,且市场需求增大,多年来一直有意控制团队规模和成本的张连毅,最近也感受到了压力,正在紧锣密鼓地招兵买马,以壮大团队力量。捷通能否成为十项全能冠军,在AI领域大展拳脚,按照张连毅的预测,接下来两三年内将见分晓。

AI格局3年定型,捷通华声能否成为十项全能冠军?

图:捷通华声董事长张连毅

近期,爱分析对捷通华声董事长张连毅进行了调研访谈,现将部分内容摘录如下。

Q:捷通的各项技术和业务发展有侧重吗?

A:有。捷通在技术上都有涉及,但是在商业化应用上是有步骤的。

第一主攻方向是智能语音交互,包括语音合成和语音识别。语音合成做了十多年,非常成熟,而语音识别真正开始应用是在2013-2014年,现在已经走过了这一阶段。

第二主攻阶段是自然语言理解,包括智能客服。这一阶段跟小i竞争比较激烈。

现阶段是第三主攻——图像识别,包括OCR和手写识别。现在技术实现了突破,正在加紧转化成商业化产品。

明年开始向第四个方向主攻——生物特征识别,包括人脸识别和声纹识别等。

Q:OCR技术现在有哪些难点? 捷通取得了哪些突破?

A:OCR技术目前的难点在于模糊、压线、重叠、有背景色等情况下的识别。比如驾驶证上面的机打字很多时候会打到横线上,在识别的时候就会存在混淆,一些有背景色和图案的名片,在识别文字的时候需要先对背景进行去色等。

现在全球范围内做得最好的OCR公司是俄罗斯的ABBYY,我们现在实验室的内部测试已经超越了ABBYY,接下来会推出相应的商业化产品。

Q:OCR技术一定要和扫描仪结合吗?

A:早期扫描仪和OCR一定要结合,不过现在OCR技术逐渐开始融入手机和高拍仪,但是大部分行业还是用的扫描仪。

Q:硬件业务除了扫描仪还有哪些?

A:硬件主要就是扫描仪,还有麦克风阵列,以及一些辅助设备,比如服务器等。

Q:如何看待当前的人脸识别技术和市场?

A:人脸识别的技术要求是跟行业应用挂钩的,比如公司考勤98%以上就足够了,但是金融安防领域就要求准确率达到100%。所以我认为,人工智能在金融领域的应用,单一技术有难以承受的风险,技术无法保证100%正确,只有通过多项技术融合,多重验证,才能保证万无一失。

现在生物识别的准确率相比模式识别并不是很高,只有虹膜识别是最高的,所以捷通会把声纹、人脸、指纹、证照识别一起用上。现在,我们的人脸识别已经在中国人民银行、北京市委新办公楼投入使用,声纹识别也用在了民生银行和厦门国际银行。明年我们会主攻人脸识别,之后还会推出全套的生物特征识别技术。

Q:200人的团队规模并不大,捷通如何实现多项技术的研发和产品商业化?

A:这是一个Know-How的问题,我一般都不正面回答。先别管我们怎么做到的,只用回到市场,看我们有没有做到就可以了。首先,语音合成、语音识别产业领域有捷通,明年华为手机手写识别都是捷通的,OCR技术已达到国内最高水平,智能客服捷通捷报频传,语音分析和数据挖掘捷通一举拿下了三个大单子,共计1000多万,人脸和声纹识别,上面提到过,中国人民银行、民生银行等都是我们的客户,已开始商业化。

灵云科技,源自清华。捷通的很多技术都是基于清华二三十年的研究,捷通是站在巨人的肩膀上,与巨人同行的。所以相信清华,相信人工智能有它的道,这个道不是每家企业都能理解的。捷通的产品和团队现在确实还不足,但是我们已经取得了很好的商业化成果。接下来,我们还会继续用市场说话。

Q:捷通的技术提供形式是什么样的?

A:捷通正在从之前单独的授权,向公有云、私有云解决方案转变。比如智能客服,如果客户不想搭服务器,我们可以提供公有云服务,如果客户要求数据保密,我们可以提供私有云服务,也就是在能力基础上提供方案服务。

Q:所有的服务都需要定制吗?

A:对,不管是公有云还是私有云方案,都需要提前针对客户的业务进行训练。比如客服领域,很多航空公司和金融机构都是我们的客户,这两类客户具体业务差别很大,都需要有针对性地做定制,哪怕是同一行业的不同客户,由于业务具体内容的差别,也需要进行定制。

当然工具类的AI技术具有一定的通用性,但是对于服务类和解决方案类来说,定制不可避免,而且针对一些专业性较强的领域,也需要提前做大量训练。

Q:软件销售毛利高,为什么还要做硬件?

A:软件在中国还是不值钱的,纯软件销售毛利确实高,但是价格要不高。

Q:目前投入主要在什么地方?

A:主要包括人力投入、设备投入、数据投入、研究投入等。我们200人的团队,一年投入6000万左右,和清华合作研发也需要投入。

Q:和清华有哪些合作?

A:清华有四大研究院:北京清华工业研究院、深圳清华研究院、海峡清华研究院、以及长三角清华研究院。北京清华工业研究院是我们的投资方,我们深圳的办公室就在深圳清华研究院,另外我们和海峡清华研究院合作成立了灵云人工智能中心。

我们从原来的OCR、手写识别、语音合成,到现在包括语音识别、人脸识别、语义理解、机器翻译等十项技术,离不开清华的支持与助力。

Q:对捷通的估值预期?

A:捷通不会包装,用一些人的话说,叫“缺乏互联网思维”。而且一直以来我对公司的成本和规模把控比较严格,所以人工智能各个领域的很多公司估值都比捷通高。

而且我们的公告数据让很多人产生了误会。2013年清华进来的时候,说先占5%,两年后还按当时的价格再占5%,加上华软也要进来,所以就有了今年年初我们公告里面的4亿估值,其实那是2013年的价格。

现在我们投前估值15亿,目前正在和一些投资人谈,希望引入一些资金进来。

Q:希望找什么样的投资方?

A:我希望找能理解人工智能的投资人,甚至能够允许公司亏损几年。因为AI技术投入非常大,而且总是起起伏伏。如果能够理解AI,确信投它是没有错的,就会比较放心。人工智能不是其他行业能够想象的,它现阶段确实不够完美,但是产业机会已经来了。如果有志同道合的投资方,我们欢迎,当然我们的原则是不对赌,不承诺不切实际的要求。

Q:对捷通的营收增长预期?

A:今年营收大概7000-8000万,我希望捷通接下来能够保持30%的增长。

其实从捷通的财务数据都能看出来,过去捷通的收益主要是两部分:软硬件和SP业务。SP业务由于长尾效应一直存在,它在捷通发展历史上一直起着重要作用。而做人工智能,从技术研发到产品的包装和推广,都不是一蹴而就的,它需要时间。

所以我们希望从今年开始算元年,因为今年是营收中没有SP业务的第一年,我们又回到了公司较为良好的时候,算是历史最高水平。接下来,产业需求还会持续增长,我们也会继续提高软件业务比重。