人工智能

搜狗王砚峰:只有大公司能做入口级产品,用户规模直接影响研发实力

语音识别领域,除了科大讯飞,搜狗同样不容小觑

2017年06月01日
指导 | 凯文 撰写 | 李喆
  • 人工智能
  • 语音识别
  • 语义理解

搜狗王砚峰:只有大公司能做入口级产品,用户规模影响研发实力

王砚峰表示,在语音识别领域,搜狗是以C端产品为核心目标,做2B市场是为了积累行业经验,寻找合适场景。现有产品用户规模会直接影响企业的技术研发能力。王砚峰认为,只有大公司才能做入口级产品,创业公司还是应该考虑垂直类应用。

语音识别一直是人工智能领域的大赛道,是商业化落地进程最快的领域。

近年,在加持深度学习技术后,语音识别率大幅提升,由此带动了一波产业热潮。作为一项通用技术,除了科大讯飞、捷通华声等老牌厂商,以及思必驰、云知声、出门问问等创业公司外,语音识别还是大型互联网公司发力的方向。

搜狗就是其中的佼佼者之一。

作为一家靠输入法产品崛起的公司,搜狗在语音识别领域的布局水到渠成。基于输入法积累的数据,使得搜狗的语音识别技术很快成为行业第一梯队,寻找适合的技术输出场景是当前要务。

不同于科大讯飞等2B厂商,搜狗是2C业务起家,在语音识别领域也依然围绕着做出一款适合C端用户的产品为核心去开展业务。限于AI技术在C端爆发要落后于B端,搜狗同样在服务车载、家居领域的B端用户,希望积累行业经验后,开发出一款适合个人用户的产品。

近期,爱分析对搜狗语音交互技术中心总经理王砚峰进行访谈,他分享了搜狗在语音识别领域的业务布局与未来战略,以及他对语音识别领域行业现状、未来趋势的看法,现将精彩内容分享如下。

语音助手还处于市场教育阶段

爱分析:搜狗2012年涉足语音识别,当时是出于哪些考虑?

王砚峰:搜狗的核心产品是搜狗输入法,而语音输入又是输入法未来一个很重要的形式。2012年,我们判断到这个趋势,那时谷歌上线语音输入,百度也已经开始研发语音技术。所以,对我们而言,输入法场景下的语音识别就是我们需要全力拿下的。

爱分析:当时业内语音输入识别技术是什么水平?

王砚峰:都是基于更传统的技术,整个语音圈子也不像现在这么活跃。

爱分析:当时有语音识别的应用吗?还只是停留在探索、打磨技术的阶段?

王砚峰:已经开始在输入法上线,还有车载产品里会有语音识别功能,只不过都做得特别简单,以命令式为主。

搜狗王砚峰:只有大公司能做入口级产品,用户规模影响研发实力

爱分析:2013年开始推语音助手,当时市场什么样?

王砚峰:整体背景还是受到苹果siri的影响,2012年siri推出不久,国内有一些小公司先快速跟进,比如智能360、出门问问等,在大公司里,搜狗推得比较早,从立项到推出产品,花了不到半年。这得益于搜索在用户查询以及服务方面的积累。

爱分析:现在来看,语音助手应用存在哪些问题?

王砚峰:手机上的语音助手解决不了用户的实际问题,或者说痛点。在美国语音助手的使用率相对高一些,从查天气、听音乐到调起手机服务,确实跟文化有关系 。中国这方面整体上更实用更传统,打动用户一定需要去解决用户的痛点才行。

爱分析:在智能汽车或者智能家居领域,是不是还有机会?

王砚峰:对,因为场景下有痛点,场景跟技术结合起来也能给用户带来真正的价值。

当然,我们觉得不排除语音助手在手机上会重新火起来,但要在这个基础上去做到进一步进化,我觉得当更多的用户培养起这种交互习惯以后,会玩出更多花样。

目前来看,语音助手还是停留在市场教育阶段。

做2B是为了做出好的2C产品

爱分析:在其他领域,是如何选择场景的?

王砚峰:做AI会有两种思路,第一种是你手上有一个锤子,于是你看见什么东西都像钉子,就想去砸一下;还有一种就是先考虑解决什么问题,回归到做产品的思路。先找用户有什么痛点,然后再思考我们有什么机会,如何与技术结合。

爱分析: 现在有哪些好的场景?

王砚峰:大思路上,我们还是希望能够去做有流量的产品,小而美的产品适合创业公司去做。

我们分两个维度去看:第一个就是在什么环境下,语音识别会更有价值,其实就是在不适合用触摸式或键盘式交互的环境。

此外,我们也在考虑什么用户群体痛点比较多,并且比较有价值和长远的想象力。

爱分析:这主要是2C领域,2B市场是如何考虑的?

王砚峰:2B是按照行业去看,2C是按照用户去看。搜狗本质是做用户产品的公司,我们做2B产品的过程中,希望能够通过行业积累,后面孵化出一些好的2C产品。

爱分析:所以做2B业务出于策略考虑,因为C端短时间很难爆发?

王砚峰:以车载来例,前期我们以软件的形态进去,不停打磨体验,以及积累对用户痛点的理解,包括用户在导航上的消费方式。

如果是一个完整的硬件导航产品,那软硬两条腿都要走的特别好。如果连我们擅长的软件都做不好,不能带来竞争力,那么一旦踏入硬件市场,你就更增加了一重失败的几率。

爱分析:从市场上看,2B业务是通用技术的应用,所以对于一些创业公司来讲,是商业化的问题,搜狗是如何考虑的?

王砚峰:我们会先追求覆盖率,然后希望品牌、产品能够在这个市场上有比较大的影响力。这并不代表我们不考虑商业化,而是看当前行业最适合什么样的商业化模式。

搜狗王砚峰:只有大公司能做入口级产品,用户规模影响研发实力

现有用户规模直接影响技术实力

爱分析:搜狗在这个偏通用技术领域里的主要竞争力是什么?

王砚峰:语音识别和对话交互。

语音识别的话,我们有输入法的能力,有大量的数据去做训练。

对话交互方面,因为我们有搜索以及一些内容服务,从技术积累以及服务接入方面,都会比纯粹的技术公司要具有优势。

爱分析:搜狗语音输入法的语音日频输入次、语音识别率表现如何?

王砚峰:每天语音请求量是2.4亿次,人均10多次。识别率方面,搜狗和讯飞不相上下,差距基本上是在0.1-0.2%之间,是正常范围内的波动。

爱分析:现在影响语音识别准确率的因素有哪些?

王砚峰:数据与技术。

爱分析:技术层面,有没有跟一些创业公司合作?

王砚峰:很难,从语音识别技术来看,创业公司跟大公司已经没法竞争了。当你需要不停的去追求技术制高点的时候,需要投入大量的研发人员大量烧钱,而当公司具有生存压力时,很难在新技术跟进投入太多人力。

爱分析:除了人员,还有哪些方面能够判断不同公司研发能力的差异?

王砚峰:我觉得公司旗下产品的用户规模也是吸引人才加入的重要因素,大家都希望自己做出的技术被尽量多的人使用。

其次,拥有巨大用户量的产品也能够产生大量的数据,这也是比较重要的部分。

所以,这些因素是衡量一个人工智能公司在未来发展前景的指标,我觉得就是数据、用户场景、人本身的基础能力。

爱分析:各家公司在识别率的差距是不断扩大还是保持不变?

王砚峰:我们跟科大讯飞是基本持平,其他公司要差一些。小一点的公司甚至是在掉队。

爱分析: 这方面的研发投入是在持续提升么?

王砚峰:一直在提升,研发投入在增长,每年整体是上亿的投入,包含机器、人员和数据成本。

爱分析:数据标记是人工实现还是机器?

王砚峰:语音方面还没有做到机器实现,主要通过人工。这也是制约人工智能数据层面的重要因素。

爱分析:这部分主要是自己做还是外包?

王砚峰:主要是外包。

重点布局智能家居、车载,不考虑智能客服

搜狗王砚峰:只有大公司能做入口级产品,用户规模影响研发实力

爱分析: 智能家居领域,主要合作厂商是哪些?

王砚峰:小米电视、创维电视、魅族电视等偏互联网的电视公司,目前的合作对象更多是黑电,把语音和搜索结合起来,在语音的基础上能够产生更多价值的,这是我们的合作方向。

爱分析:硬件厂商也有比较大的流量入口,之后会不会选择自己做?

王砚峰: 会的。

在国内,技术服务商是没有前途的,最终还是通过技术转化为产品,继续往上游走。科大讯飞已经开始走这条路,在车载领域出了自己的智能车机系统。

上游公司有大量的设备和用户,希望基于此来构建自己的语音能力,这个make sense。最终做出来的技术,哪怕不如搜狗的强,但是如果放在自己产品的垂直场景中,可能实用性也就够了。

反之,市面上也有很多不错的硬件公司,搜狗也可以去投资收购,搜狗也有自己不错的硬件产品团队,也有糖猫这样优秀的硬件产品。在蓝海中去和现有的硬件厂商竞争也是存在机会的。

爱分析:车载领域从后视镜延伸到整个中控系统,现在来看,之前碰到的那些噪音问题有没有解决掉?

王砚峰:有两种解决方法。后端将这些噪声加到模型里面,让模型本身更适应噪声环境;前端是采取去噪芯片等硬件。

爱分析:家电、车载领域,搜狗是如何收费的?主要是技术收费还是有别的合作形式?

王砚峰:两种方式都可以,一方面是通过 license计费,尤其是在一些更传统厂商会更接受这种方式,这是稳定的服务保证。

另外,我们也在追求怎么能够通过广告等后付费的方式变现,互联网的玩法是去抓用户,只要用户在自己手上,总有一天能够想办法把这个价值榨取出来。

爱分析:现在license收费方式的议价能力高吗?

王砚峰:溢价能力取决于技术壁垒,以及技术的独有性。所以长久来看如果做不到这一点,一定是走低的。

爱分析:车载领域主要是2B的,合作对象、客户主要是哪些?

王砚峰:主要是后装的方案商、前装的车厂。

爱分析:所以说车载这个领域会逐渐延伸到产品端吗?

王砚峰:其实在后装我们给出来的就是产品,不是SDK。

爱分析:数据层面的话,因为输入法会贡献大量的数据。在智能家居和车载这两个环境的数据,主要是通过哪些渠道拿到?

王砚峰:合作伙伴。

爱分析:需要合作伙伴,是有很长时间的数据积累吗?

王砚峰:不需要原来的积累,只要上线跑上一个月,就会有很多的用户数据。

爱分析: 智能客服这个领域有布局?

王砚峰:目前没有做。

爱分析:为什么没有考虑这个领域?

王砚峰:客服这个场景太2B了,没法去转换自己2C产品。这种太2B的业务还没有大量投入去做,跟我们公司偏2C的基因有关系,我们去做车载、智能家居,也是因为最终还是可以2C的。

入口级平台产品只有大公司能做,灵活性与智能性不可兼得

爱分析:从整个语音市场来看,创业公司的机会点可能在哪?

王砚峰:创业公司不应该跟大公司在主赛道上竞争,一定要去做不一样的事。

移动互联网已经没有太多机会了,后面不管是消费升级也好,产业升级也好,都有大量的AI能力需求,能够帮助产业提升效率。

大家都在提AI、都在提入口,然而真的能够做到入口的只有大公司。小公司要结合一些更确切的场景,去解决实际问题,而且这种问题也是目前大公司们觉得不适合自己做或者没有余力去做的东西。

爱分析:大公司还是往通用技术的方面去考虑吗?

王砚峰:通用技术必须要做好,在通用的基础上要有自己的产品追求。我们希望能够在自己最核心点上,把产品价值、垂直价值做起来。

爱分析:通用类技术和垂直类技术,侧重点有哪些差异?

王砚峰:通用是奔着平台去做的,通用你一定要考虑他的灵活性,灵活性意味着牺牲智能性。灵活性高,同时有一个大的分发平台、流量平台,更多的服务商才愿意接进来。这样小的设备公司才愿意把平台放到自己的设备上去。它其实是一个正向性的循环。

垂直类考虑的是怎么在垂直的领域下做更好的定制,更好地理解用户的需求,怎么能够带动垂直商去做一个更好的闭环,其实是两个方向。

爱分析:这两条路径哪条可能会占据一个更主要的地位呢?

王砚峰:最终我觉得可能会融合,或者部分融合。通用可能只是做一个平台,提供标准能力。在垂直领域,服务商可以基于这种能力进行二次开发。

在车载领域,我不会用屏幕进行太多操作,反倒是去实现足够好的智能性,所以在这样的领域,垂直类技术是一个更有效的方式。

爱分析:现在看搜狗整体的基因,基于技术的工具属性很强,其实工具做成平台类的难度会很大?

王砚峰:搜索引擎和输入法是公司现在最大的流量入口。

输入法现在正在做的一件事,在聊天工具中,用户可以通过输入法直接获取到用户想分享给对方的内容,直接分享,而不需要再跳到对应APP中,智能分享功能刚一上线,就获得了大几千万的流量,这是在没有任何推广以及用户教育的基础上得到的数字。

爱分析:所以后端还是需要很强的内容供应。

王砚峰:可以跟搜索打通的。

爱分析:内容供应是通过搜索去解决,还是直接通过这些不同场景的内容提供商?

王砚峰:都有,因为在搜索引擎上搜索到的也是内容提供商。同时,搜狗浏览器的网址导航有巨大的分发能力,有大量的垂直类型的客户,它跟搜索是并行的两个体系,都可以作为输入法的出口。

爱分析:中美在人工智能领域,特别是在语音识别方面还有什么差异?

王砚峰:中国的产品能力是不比美国差,从技术领先性上,美国还是跑的更靠前。

其次,美国有一个很成熟的2B市场,这也是Nuance发展比较好的原因。在中国,不可能有Nuance这样的公司。

因此,我反倒觉得美国的创业环境要好于中国。

爱分析:这个环境好主要是指企业付费意愿更强么?

王砚峰:市场整体更成熟,美国对于专利、创新保护更好,中国不具备这个条件。因此,中国厂商更多会趋同,而美国会更多去创新。

关注爱分析订阅号(ifenxicom),回复“ 搜狗”即可获得完整版报告。