摘要:声学信号处理与AI算法集大成者

新一轮B轮融资2亿元,专注远场语音交互的声智科技如何后来居上?| 爱分析调研-ifenxi

语音产品落地的底层逻辑在于用软硬结合的方式解决远场语音交互问题。声智科技凭借领先的声学处理与智能算法能力,成为国内鲜有的提供麦克风阵列及远近场语音识别解决方案的语音交互公司。声智科技以智能音箱作为突破点,通过全力打通产业链条,推动产品快速场景落地。未来声智科技瞄准机顶盒这一入口,深入布局智能家居生态。

指导 | 李喆

调研 | 李喆 洪军

撰写 | 洪军

产品体系丰富,应用领域广泛

不同于云知声、思必驰专注于人工智能语音公司,声智科技选择从底层声学硬件技术出发,凭借声学领域天然优势,为客户提供语音交互底层硬件解决方案。

新一轮B轮融资2亿元,专注远场语音交互的声智科技如何后来居上?| 爱分析调研-ifenxi

随后,声智科技在底层技术基础上向上延伸,构成从硬件到软件、从端到云、自下而上的全栈技术链条语音交互技术,并在麦克风阵列远场及远近场融合前端信号处理领域深耕细作。

目前,声智科技软件产品包括远场智能交互系统SoundAI Azero等,SoundAI Azero集成了声波配网、声源检测、回声消除、语音唤醒、语音识别、语义理解等全链条智能语音交互开发系统,兼容主流智能语音芯片和硬件架构。

声智科技硬件产品包括麦克风阵列芯片、麦克风阵列模组、语音交互开发板,为客户提供低成本、高集成度的远场语音交互芯片解决方案,目前已批量出货,广泛应用于家居、车载、游戏、安防等领域。

声智科技同时还为客户提供软硬件一体化技术解决方案与端云协同服务,客户资源广泛,包括互联网企业、家电厂商、运营商等。

新一轮B轮融资2亿元,专注远场语音交互的声智科技如何后来居上?| 爱分析调研-ifenxi

在复杂生态链中定位远场语音交互技术

纵观智能语音生态链,国内市场显得相对复杂。

以阿里巴巴与科大讯飞为首的互联网巨头,从技术方案到产品深入布局了整个产业链,对其他生产厂商施以较大压力。而百度等则以开放的方式共建生态产业,通过提供平台,支持合作厂商定义更多产品。

声智科技作为技术链条中重要一环,积极响应开放生态,将自己定义为坚定的远场语音交互技术方案供应商。

远场语音技术天然兼容近场语音,并且远场语音对声学处理技术要求更高。其主要原因在于,由于现实生活中空间物理特性,声信号会随着距离的增加快速衰减,因此想要获得优质的远场语音信号就需要对声学信号进行专业化处理,包括降噪、beamforming、去混响等。

此外,在语音交互深度学习模型训练时,数据尤为重要,想要获得准确度较高的模型,优质的数据必不可少,而想要获得优质的数据则需要扎实的声学信号处理功底。因此基于声学处理技术附加深度学习网络模型时显得较为轻松,而反之想要通过深度学习模型附加声学处理技术则困难重重。

目前,声智科技凭借其在声学信号处理领域领先的技术优势成功研发出提供2-8麦克风阵列方案、单麦和双麦方案等。其中麦克风阵列集成了全方位唤醒、声源检测、定向拾音、噪音拟制、混响消除、回声抵消、声纹识别等多项技术。其中远场语音5m平均识别准确率达到95%

除麦克风阵列硬件产品外,声智科技还提供融合远场语音交互和远场实时通话技术的智能语音交互系统SoundAI Azero,并且提供从端到云的智能语音交互技术和服务方案。

以智能音箱为突破点推动远场语音交互落地

在拥有领先的技术优势之后,声智科技急需寻实现智能语音产品落地,而智能音箱无疑是很好的突破点。

智能音箱的重点是落在音箱上,智能是一个辅助,音箱本身就是我们现存的市场,每年具有很大的出货量。并且智能音箱是现有品类的一种升级,更容易获得市场认可。

此外,论及人工智能技术落地产品,智能音箱Echo总是一个绕不开的存在。Echo的成功也给声智科技树立了良好的标杆。

在详细研究Echo之后,声智科技发现Echo的热销并不在于功能上的创新,而在于将语音交互从近场升级为远场,并把精度和速度打磨到非常优秀的程度。

远场语音交互同样是声智科技的拿手好戏。

于是,声智科技通过使用最先进的麦克风阵列前端处理算法,对目标说话人的声音进行远场增强并匹配远场语音识别,使得即使距离麦克风5米远仍能准确识别语音指令,实现技术链条中最核心的一环。

打通产业链条,推动产品落地

在明确了产品落地方向及完成了相应技术之后,如何解决传感器、芯片与麦克风阵列的不兼容性与不一致性,仍然是一个巨大的挑战。

为此,声智科技通过教育市场、形成商业闭环、打造典型案例方式推动产品落地。

首先,声智科技撰写大量技术文章,对行业技术进行科普,阐述声智产品及战略方向,解决认知差异。

其次,形成商业闭环。仅仅拥有商业概念是不足以形成商业闭环,只有产品的落地才能实现现金流入,让产业链其他厂商看到盈利点。为此,声智科技通过不断优化底层OS平台体系架构使的麦克风阵列芯片能够兼容不同传感器与芯片。

此外,声智科技通过不断游说传感器厂商、芯片厂商进行产品升级,使得新一代传感器不会因为麦克风的不同而出现精度差异,从而提高产品质量。

最后,打造典型案例。在商业模式形成之后,需要一个典型的产品案例夯实整个市场,得到社会及资本的认可。

于是,在20177月,声智科技与小米达成合作,为小米AI音箱提供领先的环形6麦阵列和唤醒技术方案,成功将全产业链条与产品结合,实现商业落地。

自小米AI音箱成功发布后,声智科技声名大噪。随后纷纷与百度、阿里巴巴、腾讯、华为、中国移动达成合作,提供基于麦克风阵列的软硬件一体化服务。

根据Canalys数据显示,今年以来智能音箱出货量1400万台,主要提供厂商为阿里巴巴、小米与百度,占比超80%,而这些厂商智能音箱的远场语音交互解决方案均有声智科技参与。

我们认为远场语音交互市场目前处于冷启动周期,声智科技的高销量及高品质客户有利于公司不断优化产品性能,开发相关配套内容,在市场正式启动后,公司有望迎来高速增长期。

未来,声智科技以机顶盒为突破点布局智能家居生态

虽然,音箱目前在广受市场欢迎,已应用到厨房、客厅、卧室等场景,但音箱可能并不是智能家居生态控制中心较好的选择。

人接受信息的渠道81%来自于视觉,输出渠道90%来自于听觉。视觉和听觉的结合,是体感性更强的交互方式。因此人机交互的时候,用户更喜欢图像结合语音的多维方式。

相比于音箱,声智科技认为机顶盒能够释放更多维度的内容和想象力空间。用户日常的百科、地图、购物,可以借助电视屏幕以图像方式呈现,丰富人们的感知生活。并且由于机顶盒主要销售渠道是各大运营商,更容易触达C端。

但智能机顶盒产品落地技术难度不小。如何使得机顶盒的麦克风能够在电视机噪音的影响下,准确识别出用户的指令,这对声学处理具有较高要求。

声智科技通过建立专业声学数学模型,不断测试麦克风阵列技术,针对智能机顶盒多维度的交互场景打造了定制优化的经过量产验证且成本可控的远场语音交互解决方案。

在机顶盒的专属远场语音唤醒、识别方面,声智科技推出了基于SoundAI Azero的回声抵消技术和垂直抗强噪识别等专属技术,大幅提高远场语音唤醒的准确率,实现全方位的精准唤醒,并减少无序唤醒干扰,兼顾误唤醒率。

在产品落地方面,声智科技于20185月份携手阿里巴巴研发出天猫魔盒。率先实现产品落地,满足用户对更自然的人机交互的真实追求。

声智科技未来将赋予机顶盒更多产品扩展功能,包括点播节目、播放音乐、查询天气、搜索信息等,覆盖内容、控制、服务等全方位智能家居生态,丰富用户生活。

技术与客群居行业领先地位

爱分析从技术、客群、场景、获客等四个维度对声智科技进行评价。

技术:团队核心成员出自于中科院声学所,研发人员占公司总人数的80%,研发了软件系统远场智能交互系统SoundAI Azero,以及麦克风阵列芯片、麦克风阵列模组等多项硬件产品。技术覆盖硬件到软件,端到云等全链条服务,特别是在麦克风阵列等远场及远近场融合前端处理领域技术水平处于行业领先地位。

客群:提供底层技术以及语音交互系统,主要客户有智能家居与智能车载领域的互联网厂商、硬件厂商、方案服务商。客群广泛。典型客户包括BAT、小米、华为、中国移动、奇虎360

场景:智能硬件产品面向安防、家居、车载、医疗、法院、机器人等众多场景,会根据不同场景和客户需求做定制。在家居领域以智能音箱为切入点,合作产品包括小米AI音箱、小度智能音箱、天猫精灵魔盒等,随后拓展品类到智能机顶盒、白家电产品。车载领域以前装产品为主,单麦、双麦技术方案较多。

获客:一方面依靠自有销售团队直销,销售团队在语音、芯片等具有专业知识、经验丰富、资源较多;另一方面,有较多客户主动联系寻求合作,依靠口碑影响力获客。除此之外,杜比实验室的资深销售总监古擘加入,担任营销副总裁,提升公司整体销售能力。

新一轮B轮融资2亿元,专注远场语音交互的声智科技如何后来居上?| 爱分析调研-ifenxi

近日,爱分析专访声智科技创始人兼CEO陈孝良,就智能语音发展趋势与声智科技业务发展进行了深入交流,现摘取部分内容如下。

远场语音识别构筑声智科技竞争高壁垒

爱分析:声智2016年才成立,到现在才2年多的时间,整个业务进展如此迅速,主要原因是什么?

陈孝良:技术是其中一方面,但最核心的还是我们的战略方向。创业公司最缺的就是时间,因为比较弱小。人员规模、资金实力、业务能力等都还在发展阶段,仅靠一个技术很难全面打开一个市场。创业公司面向成熟市场是很难的,这个时候很多创业公司就需要催生一个新的市场。

回顾移动互联网发展比较快的时候,都是在引导一个新的市场。声智从一开始就认为远场语音交互非常重要。国内远场语音交互这个市场真正兴起,声智起了极大的推动作用,我们一直在极力教育和普及这个市场。

声智初期就开始推远场语音交互技术,远场是声智的特点,但所有技术落地时,需要很多声学方面的东西来解决物理空间的问题,只靠深度学习不行。  

对于B端用户,需要的是一个完整的交互链条,需要很多内容和服务。所以声智的定位就是远场语音交互,专注于声学前沿技术和人工智能交互,主要提供基于SoundAI Azero的智能交互系统和服务,以及包括芯片、模组、开发板和整机产品的智能交互解决方案,在新的市场找到自己的落地点,形成自己的特色。

爱分析:我们的远场语音识别技术和语音行业资深的思必驰、云知声,它们的差别在哪?

陈孝良:主要差别在我们的核心在于远场语音识别。远场可以覆盖近场,所以不需要维护两套模型或者两个团队。

原先普遍的技术思路是,从近场过渡到远场,在近场环境中加一些模拟噪声、模拟环境等,但真实的环境并不能通过模拟可以实现。所以远场技术相较于近场会更难。

远场和近场是两个不同的技术流派,有的注重端,有的注重云。声智科技相对灵活,主要提供+的声学和人工智能技术方案。

爱分析:落到最后,声智的核心优势,其实是从原来声学所带出来的物理的相关技术,也就是说物理的技术去补深度学习的计算机的技术要容易?

陈孝良:对物理技术补深度学习会比较容易,反过来则很难。深度学习只要有比较好的数据和很好的模型就可以,同时模型的差异不如数据的贡献更大,根据真实的数据感应模型时,效果可能会更好。

但是在构造物理模型时,需要先将理念要转过来,因为全靠数学建模,然后去求解。计算机的这种建模比较少,大部分靠程序,靠逻辑,主要是01。计算机核心的数学是离散数学,离散数学就是根据01怎么去做逻辑推理。但是物理学的逻辑都是数理方程,所以这个是一个巨大的差异。

底层架构支持多产品兼容

爱分析:技术本身具备了之后,后面这个定制化的需求主要是靠ARM架构形式去做?

陈孝良:声智在前期不光是推动了整个行业的进步,也推动了很多芯片厂商、传感器厂商。比如麦克风阵列要求传感器具有一致性,不同的传感器差别很大,所以我们在不同的算法里面都要兼容它,就声智要把算法做到具有兼容性,才能有更好的为客户提供服务。

声智在技术架构里面也做了很多考量,同时也促进很多合作伙伴去升级,甚至包括很多产品线,以及产品线里的量产工艺都是声智在提供。

比如,产品里面的麦克风和喇叭,两者之间需要做很好的声学结构隔离,保证喇叭不会受麦克风饱和冲击,产品质量不损坏,保证出货的良品率,声智专门有团队帮客户解决这类问题,推动整个生产线的升级。

声智从最底层零部件的合作伙伴、产线的支持,到声智技术架构本身的兼容,以及为了更好地让用户能更快地理解落地,专门设置团队支持客户到产品落地上市。声智会重度参与,并且提供真正有效的服务,确保整个链条的正常运转。

爱分析:声智的提升兼容度是在深度学习的算法层面,还是在底层的技术架构层面,就是OS

陈孝良:是在底层上兼容。也就是基于声智提出的SoundAI Azero系统。

在物理学中,最终的效果是可以评估出来的。但深度学习是评估不出来的,因为深度学习没有理论基础,它是基于概率论求得最优解。所以只能从底层架构评估,因此需要尽量将硬件、软件、算法等之间的差异性屏蔽掉。

SoundAI Azero兼容的是传感器、芯片、硬件板卡、声学结构、ID的差异。比如,声学结构,喇叭和音腔的大小都是不一样的。比如,麦克风阵列,声智可根据不同的场景提供不同阵型的解决方案,包括线性、环形、L形等。SoundAI Azero系统基本上可以将这些差异都屏蔽掉。

这个系统想要现在去补会很难。一开始地基没有打好,上面建的房屋容易不结实,特别是SoundAI
Azero
是面向所有行业,不仅要屏蔽产品的差异,还要屏蔽行业的差异。

以智能音箱为切入点推动智能语音产品落地

爱分析:当时从音箱这个点,往其他领域去推的时候,您判断哪个行业能进,或者说是怎么去判断这个事的?

陈孝良:声智是商业指向、技术跟进。一方面根据市场的战略布局,具体推进技术发展,另一方面声智会比较注重市场当前的量级。

比如,声智现在开始将市场拓展到智能机顶盒,而且很多智能家居都已经介入这个领域了,智能机顶盒和智能音箱的技术要求不一样,盒子的喇叭变得不重要,而且是HDMI输出,里面有个非常重要的技术就是Open AEC。因此针对前端技术会有很多变化以及新的挑战。

盒子现在都在转向远场识别,近场识别更多是用遥控器。

原先盒子的界面是基于遥控器来设计的,声智的智能盒子完全是基于语音进行设计。

人工智能在早期阶段不是帮用户决策,而是为用户提供选择,让用户决策。基于这种理念,声智做了很多创新和努力。产品要做减法,而不是将所有好技术叠加在一起。声智最关注的还是用户的体验感,并且关注每个技术的细节点,争取做到都非常成功。

爱分析:交互过程中多轮对话是否使用较多?我们的远场语音识别技术的达成的核心指标有哪些?

陈孝良:多轮对话在没有视觉辅助的时候很难实现。现在音箱虽然可以定位,但是还不能用这个逻辑,因为有可能距离较远的才是给音箱的指令。

此外,多轮对话,智能音箱如何才能判断语音结束位置,这是很悖论的问题。解决这个问题,需要视觉辅助,不能单纯只依赖于一个传感。

所以技术要从产品理念去思考,才能发挥效果。创业,要小而精,要专注。就像业界对声智的印象,声学前端解决方案做得很好,这个我很自豪。

声音在5米以外,中高频严重衰减,距离越远,衰减越大。所以5米是比较合适的范围,而且正好是家居的范围,并且人说话的最佳距离大概就在13米之间。我们的5米识别准确率为95%

声智科技未来定位toB服务

爱分析:金融、教育、医疗这三个市场现在考虑进去吗?

陈孝良:我们在布局。技术先布局,然后再找典型案例,然后以点带面。

这其实还是有巨大的差异的。像我们一样,我们跨一个产品,跨一个场景,就需要加一个新的模块。

如果只从AI的角度,只提供技术,那肯定很难。但是做B端,提供的是服务,技术只是个工具。

爱分析:声智的未来定位还是会不断地选一些品类,然后在品类里面会做得越厚,但是不会变成把整个品类都吃掉这种?

陈孝良:声智的未来定位就是to B服务。对我们来说,to B是一个巨大的市场。随着国内改革的深入,还会释放出来很多红利,很多公司更需要专业的一些企业服务,也需要更好的技术。

国内的市场和国外不太一样,国外是因为亚马逊垄断了所有的零售渠道,只有沃尔玛在线下有竞争。

国内市场,巨头做补贴核心的目的是希望真的能够占据市场,但是现在看到的结果还是势均力敌。市场本身的格局是这样,因为用户在选择产品的时候,永远是需求多样化。

国内是典型的消费分级的市场,差异化极大。而且国内很有意思,人多,市场划十个层级,每个层级就有1亿多人,10个分级就足够造就10个巨头。

在一个消费分级的市场里,想一个产品覆盖10个层级的用户需求,这个难度很大的。手机都没有达到一统江湖,何况IoT产品。

中国经济体量,足够支撑多少个巨头公司诞生了,所以我是很乐观的。

寒冬我们能活下来,只是证明了我是一个及格的CEO,离我们定义的优秀还遥远。声智还是会继续稳扎稳打、踏踏实实,专注地做好自己的事情。

做商业是要有基本的商业逻辑,然后要坦诚一些差距和不足,不断迭代加强优势,控制好缺点在一定范围,这就是挺成功的企业。