摘要: 难得有创业者说句实话。

什么?远场识别成熟还要再等三五年?| 爱分析调研-爱分析

调研 | 凯文 京京

撰写 | 京京

在AI通用技术领域,相比语义理解和图像识别,语音识别商业化走得相对较早,但一直以来都以近场语音识别为主。远场识别由于噪音、混响等问题,准确率一直未能提升到理想水平,市场上除了亚马逊Echo,其他智能交互产品也由于体验问题一直销量不佳。

尽管深度学习的突破在一定程度上提高了识别率,但要达到让用户满意的水平,仍然需要真实场景下的大规模语音数据做训练。但是,这些数据的收集又依赖终端产品的普及,从而造成了“先有鸡还是先有蛋”的悖论。

成立于2016年4月的声智科技,专注于声学前沿技术和人工智能交互,融合小样本学习和深度强化学习方法,致力于提升远场语音识别的速度和精度。

创始人兼CEO陈孝良2003年进入中科院声学所,2016年4月离职创办声智科技。其核心团队中有十多位成员来自声学所,在声学前端有着深厚技术积累。目前团队共35人,其中28人负责技术研发和算法工程。

技术:前端声学门槛高,可通过专利保护形成壁垒

声智科技的核心技术是把物理学中的声学和计算机科学中的AI技术(即深度学习)相结合,用声学保证精度,用优化模型保证速度,从而将真实环境下的远场语音识别率从60%提高到90%左右,大大提升识别效果和交互体验。

声学方面,声智科技创始团队来自中科院声学所,这是全球最大的声学研究中心。据陈孝良介绍,声学是个冷门学科,国内目前只有国科大、南大、西北工大、华南理工等学校培养少量声学方向人才。

而麦克风阵列方面,业界当前只有科大讯飞和思必驰能够提供成熟的麦克风阵列方案,这两家也是联合研发,而声智科技在远场识别领域则是从芯片、硬件、到算法、软件、云端的全栈技术研发。

什么?远场识别成熟还要再等三五年?| 爱分析调研-爱分析

全球范围内,亚马逊通过早期收购的几家语音技术公司组建了当前最大的语音团队,在声学和远场识别技术上达到了领先水平,而谷歌和微软在远场识别技术上都略逊一筹。

深度学习算法由于其自身属性,无法单独形成壁垒,而声学属于物理范畴,一方面需要大量实验、模拟、计算,有较高的技术门槛,另一方面容易申请专利,通过专利构建技术壁垒。

虽然目前国内几家语音技术公司在计算力和算法方面没有太大差距,但相比其他公司来说,声智科技在声学方面更有优势,也更容易形成技术壁垒。

数据:产品收集场景数据,小样本学习降低标注成本

众所周知,深度学习需要依赖大量数据,而数据标注工作目前仍需人工来做,对创业公司来说意味着巨大成本。据陈孝良介绍,光是中文远场识别方面,数据采集和标注成本就高达数千万。因为相比文字、图像,语音对标注精度要求更高,标注要细化到音节,而且盲听也容易出错,因此不能简单通过众包方式,而需要专业人员来做。

声智科技在前端采用了与深度学习相对的小样本学习(即贝叶斯学习),从而降低了数据标注量。深度学习类似于归纳,从大量数据中总结出特征,而小样本学习则是演绎,给出先验概率,推断出结论。

什么?远场识别成熟还要再等三五年?| 爱分析调研-爱分析

人对新事物的学习更类似于小样本学习,不依赖大量数据,深度学习更像经验,经验往往容易犯错,因此采用小样本学习一方面可以降低对数据的标注量,另一方面也可以避免深度学习的经验错误。

具体到产品使用场景中,声智科技会让用户参与到数据的纠正工作中来。如果机器说错了,用户可以告诉它,从而帮助机器纠正错误。用户一旦参与进来,很多事情就可以转移到前端来处理,不需要后端庞大的计算量,从而大大降低成本。

在数据采集方面,陈孝良表示,单纯购买一些公司提供的数据集合作用非常有限,只有依靠产品收集来的真实场景数据才有价值,因为这些数据包含了很多情感和场景信息。当然,这就需要产品形成规模,才能构建数据壁垒。

声智科技目前合作的C端产品已有百万销量,可以帮助声智收集大量场景数据。另外,小样本学习方法的使用,可以让声智逐步实现半自动标注数据和校验,这在很大程度上可以降低人工成本,减轻在数据处理上的负担。

商业模式:提供前端声学解决方案,云端、内容开放合作

一套语音产品方案通常由三部分组成:1)包含麦克风阵列、声学前端算法、芯片、硬件平台等在内的硬件前端;2)包含语音识别匹配算法、语音识别、语义理解、语音数据等在内的云端;3)包含音乐、天气、短信、通话等内容应用的系统平台。

声智科技专注提供软硬一体化方案、云端声学算法和远场语音识别,而云端语义理解(NLP)和内容系统平台则与百度、蓦然认知等公司进行合作。

什么?远场识别成熟还要再等三五年?| 爱分析调研-爱分析

目前,声智科技提供的产品不仅包括远场语音交互通用麦克风阵列,还涵盖针对智能音箱、耳机、安防摄像头、机器人、玩具、智能汽车、智能医疗等不同场景和行业的软硬一体化解决方案。此外在芯片支持方面,声智科技推出了基于ARM、FPGA、嵌入式GPU三个版本,即将推出基于X86的标准版本。

陈孝良表示,之所以倾力做前端,而云端免费,是因为将来要把云端语音识别,甚至语义理解也放在前端。目前把这两个环节放在云端,主要是因为前端没有足够大的计算能力,但从实际使用场景需求和人的个体特性来讲,智能终端设备应当是不依赖于网络的独立个体,这样才能保证实时快速响应,保证良好的用户体验。

在收费模式上,声智科技目前只对硬件收费。陈孝良解释道,用户更愿意为硬件和内容付费,而不是软件技术。国外谷歌、微软、亚马逊等大公司也正在尝试针对语音识别、语义理解向B端客户收费,但国内由于市场尚不成熟,因此暂时无法对软件技术收费。

无论是近场还是远场识别,目前软件技术都呈现出免费化趋势,AI公司也纷纷主推软硬一体化方案,为的是不在产业链环节处于弱势地位。声智科技提供的软硬一体化方案,几乎可以直接用于智能产品,这样的价值定位更容易满足终端设备厂商需求。

赛道:押注智能硬件、汽车、医疗,靠大B打入市场

什么?远场识别成熟还要再等三五年?| 爱分析调研-爱分析

目前,声智科技已将上述解决方案应用到奇虎360公司的智能摄像头、儿童机器人和故事机等产品中,正在合作的智能音箱也将在不久后发布。

据陈孝良介绍,360小水滴年销量可达100万台,儿童机器人也已卖出几万台,在同类产品中表现突出。接下来,360还将推出智能早教机产品,声智科技解决方案也将随产品进入更多家庭。而对于智能音箱,由于国内大环境不够成熟,陈孝良持谨慎态度——“20万台就应该是今年不错的销量了”。

智能汽车领域,陈孝良表示,将智能语音交互用于后视镜只是过渡阶段,声智科技选择和互联网汽车公司合作,将语音交互方案放入中控系统,通过前装切入市场。由于前装周期较长,相关产品至少需要两三年才能落地。

除了通过2B2C方式进入消费级市场,声智科技还在医疗领域进行了两条产品线布局:一条是和兼有较强技术和BD能力的大客户合作,为医疗领域识别提供专用麦克风阵列,帮助医院推进信息化,比如创建电子病历等。另一条路线是与传统医疗机构合作研发声学医疗诊断产品,比如应用于肺音检测、胎音检测、鼾声检测的技术产品。

由于医疗市场较为封闭,并且医生本身缺乏对语音录入的强烈需求,因此这类新技术的采用需要国家强制政策推动。据陈孝良介绍,目前相关政策已经下达,但无论是技术打磨,还是政策落实到位,都至少需要三年时间。这期间,声智会和合作伙伴一起,建设医疗专业术语库,并进行相关的数据标注和训练工作,做好提前布局。

虽然对于成立不到一年的声智科技来说,切入摄像头、机器人、音箱、汽车、医疗五大领域战线过多,但其打法主要通过和标杆大客户合作,不需要在BD方面进行过大投入,也有助于团队专注打磨技术和解决方案。

陈孝良表示,目前远场语音识别还存在很多问题,包括鸡尾酒会问题、混响问题、多人追踪识别问题等,预计还要再经过三到五年才能达到让公众满意的效果。声智科技会用这三到五年时间专注打磨和提升技术,充分利用好这个上升空间,和客户、市场一起成长。

什么?远场识别成熟还要再等三五年?| 爱分析调研-爱分析

近期,爱分析对声智科技创始人兼CEO陈孝良进行了调研访谈,现将部分精选内容与您分享。

爱分析:Echo在国外销售火爆,但国内类似产品比如叮咚音箱却不上量,您认为主要是什么原因?

陈孝良:叮咚音箱卖不起来最重要的原因还是用户体验不好,它跟Echo相比差好几个档次,如果给Echo打80,它就只有70分,这其中的差距用户感受起来是很明显的。另外还有一点就是渠道问题,科大讯飞虽然跟京东合作,但是京东跟亚马逊的渠道能力相比,差距还是比较大的。

爱分析:近场和远场语音识别在前端和后端所做的工作有重合吗?

陈孝良:这也是很多人的一个误解。近场做得再好,跟远场还是一个不同的技术架构。远场数据还是需要重新训练的。这也就是为什么谷歌和微软近场语音做得很好,一样没预料到亚马逊的突然崛起,因为远场要做好,不仅是前端,整个后端也要重新搭建。

所以这个事情更适合没有包袱的公司来做。因为技术永远是颠覆性的,如果在原先的技术领域做了很久,是很难抛弃原有的东西,转到新领域来的。讯飞之前一直在做近场,三年前开始做远场,但是对于一家上市公司来说,要做一个全新的方案是很难的。亚马逊的Lab 126是收编了Nuance的一部分人,然后收购了几家语音公司之后积累起来的技术实力。

爱分析:技术方面的壁垒会让声智在合作中更有定价权吗?

陈孝良:这本身也是个悖论。因为现在整个市场量起不来,如果我们抬高价格,下游厂商就很难卖,利润高了量就少了。其实对我们来说,更希望他们的产品卖得越多越好,所以我们也要给人家适当的空间。AI这个领域不存在暴利,将来也不会存在,即便是自动驾驶,成熟了以后价格会立马被压下来。

爱分析:您认为未来ARM、FPGA、嵌入式GPU谁会成为AI硬件产品的主流处理器?

陈孝良:我们现在用ARM多一些,FPGA将来应该是个过渡,但至少现在也是主流,英伟达的嵌入式GPU能不能成也不好说,巨头之间的PK有很大不确定性,这里面未必是技术架构的问题,还有很多其他因素。

爱分析:智能机器人市场目前发展情况如何?会成为声智的重心吗?

陈孝良:从我们角度来看,拟人的机器人不是一个最好的市场,因为它太早了。但是机器人的范围很广,可以演变出很多形态,现在的机器人只要满足人类“我想要什么,你给我什么”的需求就可以了。语音聊天其实本身既不能代表技术水平,也影响用户体验,可能用户偶尔觉得挺好玩,但它本身是没有意义的,所以这块市场不是我们的重心,我们在这个领域只关注语音控制类的机器人。

爱分析:医疗领域会是什么样的收费模式?

陈孝良:声智科技将提供医疗专用麦克风阵列和中文医疗语音识别引擎,但是因为现在单纯的软件技术很难营收,而且我们也没有强大的BD能力,所以我们的策略是通过卖硬件收费。医疗整套系统的商业模式怎么去定义,不是一个创业公司能够推动的。不过可以肯定的是,国家改革一定会把一部分利润分给民企,所以这块将来肯定是一个机会。

爱分析:声智目前没有BD人员,接下来会考虑组建BD团队吗?

陈孝良:我们现在支持大客户已经耗费很多精力了,所以短期内不会考虑组建BD团队,甚至不会考虑大规模赚钱,因为公司重心一旦偏离,就很难扭转了。

客户现在愿意和我们一起成长,我们不能把这个上升空间浪费了。等到技术和大环境成熟了,大规模的商业化也会水到渠成。

爱分析:今年会有新的融资计划吗?

陈孝良:今年会考虑再融一轮,但目前还没有启动。