人工智能

两年估值4.5亿美金,智能机器人Rokid为什么这么贵?

三个月前,Rokid宣布完成B轮融资,估值4.5亿美金

2016年12月20日
撰写 | 京京
  • 人工智能
  • Rokid
  • 智能机器人

两年估值4.5亿美金,智能机器人Rokid为什么这么贵?

亚马逊Echo的推出引发了一波硬件+AI的热潮,从音箱到台灯,从桌面机器人到人形机器人,不到两年时间,各种形态的“机器人”都能语音交互、识别人脸、说英语、讲故事、点歌聊天定闹钟了。

从价格上看,这些产品多在千元左右,部分搭载高配处理器的,价格会达到两三千。但是,除了还要负责跳舞的人形机器人外,五千以上的AI硬件产品,恐怕就只有Rokid了。

两年估值4.5亿美金,智能机器人Rokid为什么这么贵?

图:Rokid产品

2016年年初,Rokid凭借独特的外观设计和功能, 在CES上赢得了最佳创新奖。3个月后,这款产品以5280元高价对外发售,前期准备的300台加上后来追加的200台很快被抢购一空。

三个月前,Rokid宣布完成B轮融资,估值4.5亿美金。

那么,小巧的Rokid背后,有哪些与众不同的科技?这个创立两年多、不足百人的团队为何如此受资本青睐?爱分析带着这些问题,对Rokid北京AI实验室负责人高鹏进行了调研访谈。

Rokid是个怎样的团队?

Rokid创始人Misa(祝铭明)是一位狂热极客,从小怀揣做机器人的梦想。这个梦想驱动着他读完UC Berkeley人工智能博士。毕业后,Misa创建了猛犸科技,后被阿里收购,他携团队加入阿里,并成为无线事业部M工作室领头人,负责深度学习、视觉和自然语言处理研发。

创始团队中,CFO Eric(王舜德)曾任好孩子集团CFO、阿里财务VP、金山软件CFO;产品设计师徐剑有十余年设计经验,负责Rokid全线产品;市场负责人黄超是前阿里手机淘宝市场经理,拥有十余年广告市场经验。

Misa的AI技术背景和创业经历,以及创始团队的完整结构和丰富经验,使得Rokid在“只有产品草图”的天使轮融资中,就获得了来自北极光创投、线性资本、IDG,以及阿里创始人之一吴泳铭、前91无线 CEO、MFund胡泽民等人的共同支持。

11月15日,Rokid完成原型机。之后的一年时间里,团队专注技术和产品打磨,在此期间,又完成了A轮融资,为产品小批量生产做准备。今年4月,Rokid首次对外销售,并获得了第一批近千位天使用户。

在团队管理上,Misa保持了足够的自由度和灵活性,团队成员可以按照公司的愿景和方向去做大胆创新。正是这种自由和创新的氛围,吸引并凝聚了一批优秀的产品和技术人员加入。

目前,Rokid团队近百人,技术研发人员占六成以上,其中包括20位全职博士。除了杭州大本营,Rokid还设有北京A-Lab和硅谷R-Lab两个实验室,分别负责人工智能理论和算法研究,以及前瞻性技术探索。

Rokid产品有什么不同?

Misa将Rokid的整体研发进程定为Home AI、Portable AI、PersonalAI三个阶段。第一步就是先让AI进入家庭,让大众能够切身体会到人工智能带来的高科技生活,再渗入到出行等其他场景,最后实现随身携带、甚至无处不在的人工智能。

“Rokid”就是Home AI的代表产品。

两年估值4.5亿美金,智能机器人Rokid为什么这么贵?

Rokid产品构造

外观和构造方面,Rokid主体外壳采用高曲率非球面壳,内置DLP投影和LED阵列,用来显示图像;采用三星定制8核CPU,用来计算图像、语音等数字信息;顶端配有1200万像素摄像头,实现视频通话和拍照功能;底部是一个音箱,内置8个高灵敏度麦克风阵列,负责寻声采集和声纹识别,最远识别距离可达到5米。此外还有环境光线与温度传感器,用来感应室内光线和温度。

成本方面,据高鹏介绍,Rokid最昂贵的部分主要是DLP投影、三星8核CPU,以及高透光度曲面外壳。

不同于传统的显示屏,Rokid采用了微型投影常用的DLP投影技术,将画面投射到曲面屏上,来实现显示功能。虽然相比微型投影仪同类方案3LCD液晶片来说已经较低,但仍是Rokid成本中占比最大的一块。

三星除了合作商之外,很少直接对外销售其芯片,基本都是依靠垂直整合模式自产自销。因此Rokid的定制芯片难免价格昂贵。而高透光度曲面外壳由于外形不规则,开模设计相比圆形、方形都是最高成本。除此之外,高清摄像头、麦克风阵列、以及各种传感器,也构成了Rokid成本的一大部分。

功能方面,除了前面提到的语音交互、视觉交互、温度和灯光感应外,Rokid还可以通过其内容和应用合作商为用户播放音乐、广播,记录用户喜好并进行智能推荐。同时,用户也可以通过Rokid对部分合作家电进行语音控制和操作。

此外,Rokid团队还在提升用户体验方面做了很多功课,双音节激活就是其中一例。

有语音交互功能的智能硬件或机器人都需要“唤醒词”进行激活,比如苹果的Siri唤醒词为“Hi,Siri”,亚马逊Echo唤醒词为“Alexa”,叮咚音箱唤醒词为“叮咚叮咚”,布丁机器人唤醒词为“你好布丁”…

唤醒词越短,越容易产生“误激活”,但是过长的唤醒词对于用户来说体验不好。Rokid通过在算法上进行改进,采用双音节“若琪”作为唤醒词,不仅简洁,而且更符合人与人之间的称呼习惯。

两年估值4.5亿美金,智能机器人Rokid为什么这么贵?

Rokid有哪些核心技术?

丰富的产品功能需要足够的技术实力来做支撑。

对于桌面机器人而言,语音是最主要的交互方式,它包含一系列复杂的技术链条,从远场拾音、降噪、信号处理,到语音识别、自然语言理解、多轮对话、以及声纹识别等,对团队技术能力要求很高。一些公司选择接入第三方较为成熟的语音技术来实现交互,但Rokid选择自己来做,只在自由聊天方面接入了三角兽的Chatbot技术。

高鹏给出了三点理由。

首先,Rokid团队中有5位来自中科院自动化所多年从事语音技术研究的博士,具备足够的技术积累;其次,这些技术对于用户体验非常重要,单纯依靠第三方,很难做到最优化;最后,现在技术发展很快,如果不自己做研发,就无法及时捕捉到新增需求。而接入三角兽的Chatbot,主要是为了保证用户在和Rokid自由对话时,它能及时予以回应。

视觉方面,Rokid也有专业的视觉算法团队,帮助Rokid实现了暗光环境下的手势交互,以适应家居场景使用需求。目前,Rokid视觉团队也在致力于人脸识别、视觉交互、以及室内定位导航等方面的研究,未来产品将有望实现自主运动。

Rokid如何打开市场?

智能家居机器人的普及依赖于多方面因素,早期产品要推向市场,面临的挑战不容小觑。

首先,C端用户对产品体验要求极高,而当前AI技术尚未成熟,要达到消费者要求并不容易。

这也正是为什么,当前多数智能家居机器人定位在早教和儿童陪伴方面,尚未出现现象级、大众化的产品。而无论是语音还是视觉技术,当前仍然存在诸多问题需要攻克。技术实现之后,还要解决成本、产品体验等一系列问题。

其次,对于语音、视觉等新兴交互方式,消费者需要时间去建立习惯、形成需求。

早期新兴产品往往肩负着教育用户、教育市场的使命,消费者习惯的建立与产品的普及又是一个相互促进的过程。对于创业公司而言,教育市场、培养需求意味着长期投入以及大量成本。

最后,智能家居机器人的爆发依赖于内容应用和智能家电软硬件两块生态的完善。

要让机器人成为家电枢纽和交互中心,需要整个智能家居生态的成熟,而当前智能家电的普及率还很低。同时,内容应用也并非越多越好,关键在于能够符合用户场景化需求,解决原有的体验不佳和效率低下问题,切中用户痛点,否则再多的功能也会“形同虚设”。

对于Rokid来说,坚持自主研发核心技术,以及追求产品极致体验,都有利于更好地完善产品和技术,挖掘和满足用户需求。而在生态搭建上,Rokid已经和IoT设备商LifeSmart、欧瑞博、小米、美的、华百安等家电厂商建立了合作。内容方面,也与音乐版权方Ultimate、虾米、喜马拉雅等合作,同时开放了内容应用SDK,以吸引更多内容提供商入驻平台。

11月8日,Rokid与神州数码达成合作,将其作为全国渠道总代理。依托神州数码庞大的营销网络以及丰富的市场推广经验,Rokid将在全国各大城市逐步设立线下体验店,开始线上、线下全面铺货与市场发力。

在几天后的2017 CES展中,Rokid还将发布其Portable AI代表产品Pebble,价格会在千元左右,覆盖更多消费群体。

两年估值4.5亿美金,智能机器人Rokid为什么这么贵?

图:Rokid产品Pebble

过去一年来,AI概念的火爆给了市场足够的预热。11月底,上市两年的亚马逊Echo累计销量突破510万台,而国内同类产品甚至还未出现10万台以上“爆款”。对于市场何时爆发,大家各执己见。高鹏坦言,现有技术尚不成熟,也许消费级市场还要再等两年。不过,他们会专注技术研发和产品打磨,最终谁能留在市场,还是消费者说了算。

两年估值4.5亿美金,智能机器人Rokid为什么这么贵?

近期,爱分析对Rokid北京AI实验室负责人高鹏进行了调研访谈,现将部分内容摘录如下。

Q:远场语音识别最远能达到多远? 

A:物理极限大概就是10米,再远的话就得靠喊了。因为声音传播是按平方递减的,而且家居环境还存在障碍物,会阻碍声音传播。现在市面上语音交互产品识别距离基本都是3-5米内。

Q:自由聊天为何选择接入第三方技术? 

A:我们本身还是聚焦Serious AI,也就是说,要具体去完成一个功能,而不是随意调戏。之所以接三角兽的技术,是因为用户很多时候的交互会超出我们界定的范围,这时候如果机器不予回应,用户体验就会比较差,所以我们选择接入第三方来补充这样一个功能。在实际使用过程中,如果我们监测到用户讲的话,超出我们的范围,就会接到Chatbot,去回复用户,所以这也是从用户体验角度出发去做的一个事情。

Q:现在的语音识别技术能否认出某个人的声音? 

A:这也是我们和业界都在努力的一个方向。 “认出一个人的声音”包含两个问题,一个是声纹识别,就是说要识别出是你,而不是另外一个人;另一个问题,是这个方向上有人跟我讲话,而不是旁边一个方向。

第一个叫声纹识别,你只要跟我讲话,我知道是你,你要让我放歌,我就放你喜欢的歌,这个相当于个性化需求,可以针对家庭成员来做优化;而方向问题,是一个信号处理问题。家里可能比较吵,你在某地方叫一声“若琪”,它能在同时很吵的方向里找到有人叫它“若琪”,不管你是谁。

现在的声纹识别只能做到近讲,远讲还不行,因为远场识别已经很难了,远场声纹识别就更难了,距离越远,声音变化越多,越难识别。而在方向识别上,对于目前的技术来说,只要生源和噪音有一定的角度差,就可以分开。

Q:当前语音识别技术还存在哪些问题? 

A:语音识别现在问题还很多。比如说话时的语气词、断句、重复等,还有外界环境噪音都会影响识别效果。最终语音识别问题的解决还是要依靠全流程结合,就像人一样,哪怕周围有噪音、或者某些地方听不清楚,我们大脑会利用已有知识和情景去推断听到的内容,所以识别加上语义才能实现更好的效果,这就需要机器进行大量的训练和学习。

Q:Pebble通过哪些方式降低成本? 

A:首先,Pebble是一款便携式产品,它的整个外形和结构设计都跟Rokid很不一样,投影这样的功能可能就没有了,而会通过别的方式进行显示。但是后台的整体核心技术和基本功能都会和原来一样。

Q:是否认为现在AI被炒得过热? 

A:的确有,因为目前的技术发展水平还不成熟,当然肯定比前几年好很多,但是还没有到真正开天辟地、实现了很大突破的时候。