云知声完成从0到1,要构建大数据时代下AI技术闭环-爱分析

12年前,中科大博士毕业的黄伟加入了摩托罗拉中国研究中心(MCRC),开始了从一个学生到工程师的蜕变。期间,他带队开发出世界上首个手机声纹认证系统。后来,全球智能语音行业翘楚Nuance收购了黄伟所在的摩托罗拉语音业务团队。

2009年,黄伟加入盛大创新院,并于次年创建语音分院,力图将语音识别技术与盛大互动娱乐系统相结合,延展到用户端。

2013年底,黄伟正式加入云知声,并出任CEO。

黄伟说,在摩托罗拉的五年他是做着技术看产品,而在盛大期间,他开始从产品和用户角度看技术。多年的技术积累和工业界经验让黄伟对智能语音行业有了全局的商业观。

自创立之初,云知声就不断在各领域寻求合作,以实现产品落地。从2012年助推搜狗语音助手、2013年发布微信语音输入插件、为乐视超级电视提供语音方案,到2014年牵手平安健康保险、阿里YunOS、英特尔,再到近两年与友盟及暴风魔镜合作。

云知声用了短短四年时间就将业务渗透到家居、车载、医疗、教育、金融、安防等几大领域,推出了包括智能硬件、搜索控制、语音输入、企业服务等多种智能语音解决方案。

惊人的发展使得云知声备受行业及资本市场关注,四年时间累积融资近亿美元,其中包括启明、挚信、高通等知名机构资本注入,合作伙伴积累超过两万家。

近日,云知声宣布完成技术引擎3.0版本升级。升级之后,云知声在感知智能和认知智能两方面都得到大幅提升。

接下来,爱分析对云知声的核心竞争力——大数据时代的AI技术闭环进行深入解析。

云知声完成从0到1,要构建大数据时代下AI技术闭环-爱分析

四年来,得益于整个行业技术和算法的演进,云知声在AI基础架构三大部分——深度学习算法、高性能计算、以及大数据上,都取得了明显进步。

算法方面,自创立以来,云知声的算法经历了从2012年的统计学习(V1.0)、到2013年开始的深度学习(V2.0),再到刚刚升级的深度学习+大数据(V3.0)的演进过程。新升级的算法基于LSTM-CTC(长短时记忆网络模型+链结式时间分类算法)和Seq2Seq(端到端)语音识别技术,可以真正实现深度学习和大数据的结合。

计算方面,云知声实现了从单机多卡到大规模CPU/GPU集群的转变,大幅提升了计算能力。

大数据方面,云知声经过四年积累,其云平台已经有9,000万台设备接入,日调用量达1.5亿-2亿次,年调用量增长率达375.3%。

而在第二层——感知智能和认知智能的发展上,云知声一直坚持“无感知,不认知”。在坚持感知阶段数据积累的同时,不断进行认知阶段的探索和尝试。

感知方面,云知声主要做两件事,一个是AI芯,把深度学习算法做到低功耗芯片上,以100兆主频的运算能力实现唤醒、语音识别等功能。另一个是麦克风阵列,主要解决演讲环境下的降噪和语音增量。此外,本次技术升级采用的端到端语音识别LSTM-CTC也大大提高了不同场景下的准确率和识别速度。

认知方面,云知声提出“语用计算”概念——在语义理解的基础上,加入语境信息,使得人工智能在不同场景下更好地理解人类语言,实现无障碍沟通。

最后,在实现商业化的终端和应用层面,云知声主要集中于车载、家居、医疗、教育四大领域。其中,家居、车载市场是其主要营收来源。

云知声完成从0到1,要构建大数据时代下AI技术闭环-爱分析

车载方面,考虑到前装市场的高时间和资金成本,云知声选择后装市场进行切入,同时保证了技术的先进性。目前为止,云知声已经获得了中国后装车机市场上60%的市场份额,积累了超过150万台车载设备,今年还要再增加250万台。

家居领域,云知声去年9月发布了智能家居语音交互完整解决方案,包括语音交互技术、云端服务、以及硬件模块标准化适配方案。除了为乐视超级电视提供智能语音芯片,云知声还落地了小巢智能台灯、华帝抽油烟机、智能WIFI音箱等家居产品,此外还和海尔、长虹、美的、联想、同方、TCL在内的知名家电厂商建立了深度合作。

医疗领域,云知声首先在协和医院使用语音识别系统录入电子病历。该系统包括软硬件两部分。软件为专门的医疗语音识别服务客户端和云平台,硬件为医用麦克风。软硬件经过调试优化后,具有独特抗噪性,语音识别准确率达到95%,针对特定科室优化准确率可高达98%。目前,该系统能够广泛用于患者就诊的全生命周期医疗信息化方案中,有效提升患者、医生、护士的就医和工作体验。

教育方面,云知声主推英语口语测评技术。自从2014年切入在线教育以来,云知声在产品和技术上快速升级,成功签约了包括全通教育等几家行业巨头公司。2015年8月,云知声和暴风魔镜合作,以语音+VR技术引领在线教育革新。未来,云知声也将加大教育行业投入,教育事业部或独立成立子公司,专注教育行业云评测。

在AI基础构架之上,依赖于感知智能和认知智能解决方案,最终通过终端和应用获得数据返回到基础构架的大数据上,就形成了云知声的AI技术闭环。

未来,云知声希望实现Learning to Learn(一通百通),也就是用一个神经网络训练另一个神经网络,让机器不断学习和进化,从而迈向通用智能。

去年,云知声实现了几千万元的营收,完成了从0到1 的突破,这对一家创立四年的技术公司来说实属不易。但是,由于消费者对AI产品和服务的使用习惯尚未建立起来,起步阶段的数据积累还很有限,尤其是家居、教育、医疗领域,语音智能服务及相应数据的变现能力尚待市场验证。

云知声完成从0到1,要构建大数据时代下AI技术闭环-爱分析

分享会后,爱分析对云知声CEO黄伟进行了调研访谈,现将精彩内容摘抄如下,与您分享。

Q:AI 公司的价值如何评判?具体到云知声呢?

A:要评判一家人工智能公司的价值所在,要看它做了什么、以及何时开始做。云知声目前为止有两个亮点我们认为是很对的。

第一,2012年发布了一个完全免费的语音平台,以此来源源不断地获得数据。如果把深度学习比喻成一个火箭引擎,数据就是燃料,我们现在已经积累了足够多的燃料。第二,我们不是因为AI热了才做,恰恰相反,我04年毕业的时候,AI在工业界非常冷门。

过去十几年间在工业界积累的经验让我们非常看重技术如何落地。比如今天大家关注芯片的时候,2015年乐视电视就已经用了我们的芯片,包括华帝等很多公司也在使用我们的技术。

另外,一家技术驱动的公司,拥有核心技术和专利也很重要。在这方面,云知声拥有69项专利和19本软著,我个人也拥有40多项中美专利。我们的核心技术团队也曾多次获得过行业国际大奖第一名:比如,在美国的语言类顶级评测——NIST(美国国家标准技术署说话人识别评测)中多次获得SRE任务第一名。在MIREX(国际音频检索评测大赛)中连续三年获得第一。在这些国际大赛中,PK掉了Nuance、IBM、SRI、微软、科大讯飞等国内外知名企业。

Q:和乐视的合作是以什么形式?如何付费?目前芯片方案成熟吗?

A:芯片直接植入设备,以授权的形式按每台设备来付费。同时在硬件的整个生命周期内,我们可以获得用户真实使用场景的数据到云端。

芯片方案成熟与否,主要在于两点。第一是技术问题,技术指标能否达到用户满意度,这个需要不断提高;第二是用户和厂商对这种交互方式的接受度。经过过去一年多的培育,我们很多的合作伙伴对我们的产品也提出了明确需求。

Q:和医院的合作是以什么形式?如何收费?商业价值何在?

A:我们直接架设在医院的HIS(Hospital Information System)系统之上,按科室收费,因为并非所有科室都需要。

价值主要体现在两点:第一是技术价值,这些数据可以帮助我们不断提升系统;第二,这个系统一方面可以帮助医院提升效率,目前我们帮助协和医院的医生提高了20%到40%的工作效率,另一方面我们和医院一起来完成对医疗数据的感知过程。

到今天,我们在国内已经正式签约并上线的医院有5家,还有约70家潜在的意向医院,其中有约30家已经完成了系统的测试,正在走下一步的流程。

Q:教育市场比较封闭,如何突破?

A:的确。比如科大讯飞有很强的政府资源,但它同时也是通过收购一些渠道来渗透,对我们来说也一样。教育领域里面有资源有渠道的公司,我们都可以跟他们合作。

Q:技术迭代和数据积累都需要长期烧钱,如何看待这一问题?

A:这个问题不光在中国存在,美国也存在。技术和钱存在距离,要通过产品和服务为载体来实现。

烧钱我们大概烧了四年,从一年多前开始商业化探索到今天,已经取得了一定进展。去年我们在车载和医疗领域没有引领者和参照系的情况下,定下了我们的产品形态,由此获得了几千万收入,完成了从0到1的过程。相比于6,000多人的讯飞,我们只有200多人,但客户不会因为你人少、没上市,就降低对你的要求。所以我们还是要加大投入,在1后面实现更多的0。

Q:如何看待同行业竞争?

A:云知声在市场影响力等各方面都属于领先者,我们的创始团队有很强的工业界背景。其实我不太愿意与竞争者做比较。每家公司都有自己的基因和定位,无论是科大讯飞、百度、腾讯,还是其他,市场足够大,可以容下大家,只要找准定位,把自己的事情做好就可以了。

Q:技术人才是AI领域的重点投资对象,如何看待公司高薪抢人的现象?

A:对,这是业内存在的一种情况,但我个人对此比较淡定。第一我从来不相信黑科技,不管怎么样,到实验层面大家基本都差不多。第二,商业公司更看重团队合作,不错的人形成团队的力量,得到不错的结果。

我非常认同一个好的工程师,比得上10个,乃至20个平庸的工程师。但真正做公司的时候,我更相信团队的力量。