直播、在线教育、智能硬件……专注实时通讯的声网会从哪里爆发?-爱分析

2010年5月,Google 以6,820万美元收购实时通信软件开发商Global IP Solutions,开启了在Web端的实时通信探索。截止目前,Chrome浏览器上每周音视频使用量已经超过10亿分钟,成为实时音视频领域的领先者。

实际上,实时音视频通信是在互联网上进行的音频、视频通话,不仅可以应用在浏览器上,在诸多场景都可以使用。随着互联网服务越来越廉价易得,实时音视频通信未来应用前景广阔。

直播、在线教育、智能硬件……专注实时通讯的声网会从哪里爆发?-爱分析

实时通信如何会有如此广泛的影响?答案可以总结成,场景化的实时交互正在改变我们的生活,并且渗透并改变着互联网的各大行业。

基于互联网的实时通信能够在一天之内完成应用程序原型构建,在几周之内即可将应用程序推广到生产环境中,而整个过程的成本只是传统解决方案的几分之一。

实时音视频技术解决行业痛点

声网就是一家基于互联网的实时通信公司,通过在全球部署软件定义实时网SD-RTN(Software Defined Real-time Network)来从根本上解决实时通信在传输过程中的质量问题。

因为互联网原本并不是为实时通信所设计,传统的实时音视频通过公网传输,往往受不可控的网络环境影响,会出现延迟、卡顿的情况,这对视频直播、电话会议这样极度重视实时性的场景是毁灭性打击。

声网为了解决音视频传输过程中的不稳定问题,搭建了一套专为实时传输设计的虚拟通信网络SD-RTN(Software Defined Real-time Network),将近100个数据中心,这也是声网的核心竞争力所在。

具体来讲,传统公网传输就像火车、飞机和汽车运输,运量大但是易受网络环境影响,尤其是在跨境时不同运营商之间转换,容易造成延迟。而声网的SD-RTN可以理解为输油管线,线路少,但是无额外延迟、传输稳定。

传输质量是实时云通信的生命线,声网的价值就体现在高质量的音视频传输上。

面向开发者,建立实时通信平台

声网只提供底层技术服务,不涉及到音视频内容生产。客户只需要下载声网SDK,就可以在自身APP中添加在线音视频和直播功能。

自2015年中期,声网开始商业化,截止目前,比较大型的客户包括:小米,陌陌,途牛,去哪儿,春雨国际,好未来,Talksapce,Flurry live等。

付费模式上,声网按照客户的音视频使用量收费,每月10,000分钟以内免费,此后按照音频0.00099美元/分钟(每分钟不到1分钱),视频0.00399美元/分钟(每分钟不到3分钱)收费。如果按照一个客户每月10万音频分钟数计算,每月的费用才900元,这个价格对中小型用户相当友好。

这一收费策略借鉴于AWS最小使用量免费、对开发者友好、鼓励自主服务的策略。在赵斌的判断中,未来实时云通信将如同水、电一样随处可得,同时价格低廉。

同时,赵斌也坦言,现在的收费模式正在探索,未来可能会跨出音视频通信,定价策略也可能会改变,但是面向开发者、提供低价服务的大方向不会变。

直播、在线教育、智能硬件……专注实时通讯的声网会从哪里爆发?-爱分析

团队阵容强大,音视频领域技术拔尖

声网的技术团队相当强大。声网总部在硅谷,国内与硅谷有超过50人的团队,声网Agora.io的团队90%均为全球技术工程师,包括前YY技术委员会主席、苹果 Apple视频算法架构师师、Vidyo产品负责人、Polycom工程总监等,平均行业经验10年以上。团队拥有年服务数千亿分钟音视频通话和千万级并发的互联网直播经验。

创始人赵斌,曾参与和主导两家美国纳斯达克上市公司的创立。1997年作为创始工程师参与Webex (网讯) 创业。2007年作为CTO参与YY (欢聚时代)创业。2014年创立声网Agora.io。

陶思明,前YY语音技术委员会主席;从2005年开始一直从事网络音视频通话技术研究,国内骨灰级的网络音视频专家,在音视频通信技术实践、通信网络架构部署等方面有非常深厚的积累。

楼剑,前Apple视频核心算法工程师;参与苹果公司第一、二、三代视频编解码器的算法研究和开发,应用于iPhone,iPad和Mac上的FaceTime,AirPlay,视频录像和视频转码。拥有22项美国专利授权和18项中国专利授权。

Ed Brakus,声网Agora.io 全球产品管理负责人。拥有超过20年通信行业和音视频产品管理经验。曾任职Vidyo公司担任产品管理高级总监,把控Vidyo全球视频产品发展。

高泽华,音频负责人,11年音乐语音编解码学习经验,先后在中磊电子、士兰微电子、虹软科技主导音频项目,任职YY期间负责语音音频技术工作。在互联网应用和专利分析方面有多年研发经验和积累。

李伟,首席架构师,超过10年网络音视频研发和架构经验。曾任职PPTV、新浪视频、YY,先后主导设计实时视频传输技术架构和后台基础服务,帮助支撑数千万用户同时在线的实时音视频服务。

声网团队平均行业经验10年以上,有很强的技术能力。

市场爆发,年复合增长超200%

根据IDC的预测,2015年实时通信市场规模在1.8亿美金,绝对量不大,但增速很快,到2018年市场规模能达到36亿美金,年复合增长达到273%。

直播、在线教育、智能硬件……专注实时通讯的声网会从哪里爆发?-爱分析

来源:2014年8月发布的IDC 250224号报告《Worldwide Cloud Communications Platforms 2014–2018 Forecast:The Resurgence of Voice and SMS》(2014-2018年全球云通信平台预测:语音和短信再度兴起)

如此快速的增长,一方面来自用巨头带来的头部增长,另一方面来自消费者市场的推动。

大型“蓝海”市场的非线性增长。新经济时代的一些巨头,公司(Airbnb、Alibaba、Box、eBay、eHarmony、Expedia、Hulu、Netflix、Salesforce、Trulia、Uber和Zendesk)都已经采用新颖的方式将通信API集成到了他们的流程中。

消费者市场的推动。目前大多数消费者的社交平台,包括:Facebook Messenger、WhatsApp、微信都已集成简单易用的“一键通话”语音和视频功能,促使企业用户对此类功能的呼声也越来越高。

直播、在线教育、智能硬件……专注实时通讯的声网会从哪里爆发?-爱分析

近期,爱分析与声网创始人赵斌进行专访,部分内容分享如下

Q:声网的技术门槛体现在?

A:声网Agora.io把一件很复杂、技术门槛很高、专业性很强的音视频工作包揽下来,帮助开发者提供完整的音视频解决方案,让开发者可以集中精力做开发。声网Agora.io从诞生开始,基因里就是致力于帮助开发者,对开发者友好。声网的专业级音视频技术的优势在于即使在信号差的情况下,也可以实现高质量、稳定的音视频传输。

Callstats.io是实时通信领域里很专业的数据测试的公司,它对目前实时通信行业现状有一个调研,基于公网的WebRTC通话中有16%通话质量不可接受。这是针对欧美市场为主的调研,实际情况比如中国、印度会糟糕得多。声网的优势是即使在信号差的情况下,或者在跨国和跨运营商通话中,通话质量好很多,连通率可以达到99.9%。

Q:WebRTC有哪些成熟的应用?

A:行业里普遍在使用WebRTC技术,有些是在尝试阶段,有些是已经大规模应用,比如远程医疗、企业协作、教育,都借鉴了WebRTC的技术。但是,由于WebRTC本身是基于浏览器集成,在传输方面并没有太多的标准和建议,仅使用传统的P2P点对点协议,当用户出现复杂的跨地区跨时区跨国的传输时,WebRTC无法进行软件编码优化,这也就是为什么,开发者使用WebRTC实现Demo很容易,可是在实际应用过程中却碰到很多问题。同时,由于WebRTC无法使用硬件编码,因此受制于移动终端设备的cpu性能限制,在商用过程中往往难以实现。

Q: 声网Agora.io的实时通信技术和WebRTC相比,有什么区别?

A:声网的实时技术是为了确保高质量的通信,Web方案确实运用了WebRTC的部分,但更多是在根本传输和移动上的优化。

第一,着重在移动端体验,可以支持Web和Native互通。我们适配了5000种安卓手机,特别是在印度、东南亚、中国的很多低端手机。

第二,在实时网络传输上做了极大优化,我们的SD-RTN网络其实是WebRTC最好的补充。比如在印度和中国弱网和跨运营商通话时,也能保证体验。

第三,我们采用了基于互联网信源信道的编解码,更能适应公网的音视频通信场景。

第四,声网做了一个极简的API,对开发者来说,集成几行代码就能搞定,这个比WebRTC基于浏览器端要更加友好。

Q:国内外市场的差别?

A:国内和国外主要是使用形态的区别。因为国内移动端占到绝大比例,在移动端上使用,中国更先进,国外在浏览器上更加普遍一些。在客户上,国内外市场的分布比较均匀大客户和小客户都有。

Q:实时通信与CDN都是快速爆发的市场,都偏重服务器的建设,两者有什么区别和联系?

A:实时通信与CDN有一些相似,但不完全一样。两者都强调加速,但CDN是纯后端,为IT服务,而实时通信前端很重,比如音频、视频前端处理、压缩,需要很深厚的技术积累。在通信场景下,CDN的延时非常大就无法满足需求,必须使用我们的SD-RTN才能保证毫秒级延时,有好的体验。

Q:CDN能出现垄断性的大公司,RTC会不会?

A:RTC现在还在早期,但未来一定会出大公司,并且最大的公司占很大份额。随着移动互联网的兴起,以及实时通信在不同的行业和领域的应用越来越广泛,RTC实时通信必然是趋势。这也是一个技术驱动的潜力市场,谁的技术能力强,谁的发展就更快。越有技术潜力的公司,越有可能成为独角兽。

Q:微信、苹果Facetime、Facebook、陌陌实时音视频通信用谁的服务?

A:微信的实时音视频是自己做的,成本很重,有几十人的团队专门做音视频,这是最基本的研发成本,除此之外还有服务器、带宽的成本。

Facetime用的不是WebRTC,而是走传统的电信标准。

Facebook用的WebRTC更多。

陌陌用的是声网的实时音视频服务,印度最大的社交App用的也是声网的实时音视频服务。

Q: 国内的直播厂商的技术用的是谁的服务?

A:国内的直播平台,目前有一大部分是延用CDN技术。但是随着新的实时通信技术以及直播技术的兴起,国内的直播平台出现了不少新的延时更低,可以同时容纳多主播互动的直播技术的应用。比如,声网Agora.io的全互动直播技术,是基于全球的虚拟网络SD-RTN软件实时定义网的,可以实现最多7个主播同时进行连麦互动,最多支持10000人语音连麦,这在国内是支持最多直播连麦、互动人数最多的技术。

另外一个特点,互动连麦时的毫秒级延时,声网Agora.io的网络端到端平均延时在76ms左右。按照国际电信标准的规定,很多人认为互联网的实时通信延时在800ms以内仍然可以接受。用户在看传统一对多直播的时候,如果有2秒甚至十几秒延迟,体验差别不大。但是如果在多个连麦主播和观众之间需要实时对话的强互动场景中,这个延时必须是毫秒级的才可以满足。

基于以上两个特点,声网Agora.io和很多平台如陌陌、Flurry Live等都有深度合作。

Q:声网的直播技术相较于传统直播方式的成本变化?

A:成本变动不会特别大,但是优势在于在10-20%丢包的情况下,客户愿意为更好的音视频质量付一些额外的费用,在性价比上我们有优势。同时在互动性玩法上,我们可以驱动更多场景和可能性。

Q:如何面对同行业竞争?

A:声网目前在国内的使命,主要是两个声网的核心是聚焦在IP与IP之间传播,这方面声网Agora.io是有独特的技术优势的,这方面我们不怕来自同行业的竞争。如果有其他企业加入,我们也很欢迎,目前这个行业还在早期,有人进来一起探索也挺好。

Q:会不会面临来自运营商的障碍?

A:不太会有,目前实时通信方面法律比较清晰。腾讯在QQ时代就界定了边界,只要是,IP传IP,基本已经放开。

而早期运营商会有抵触,但是微信QQ已经把服务开放了,今天这个话题已经成为过去时。

Q:声网收费标准定的很低,这是为什么?

A:我认为,未来的RTC一定是向水电一样随手可得,我们现在在做的就是把门槛降到非常低。

比如远程医疗,采购视频模块就至少几万美元起步,然后每年的维护至少几千美元。而声网收费来自业务量,也就是医生和患者间的互动量,少的时候就特别少,对他们反而成为成本上的颠覆。

Q:Tokbox也是一家知名的WebRTC公司,与声网的异同在?

A:Tokbox这家公司在2012年被西班牙电信收购,收购金额在千万美元级别。

他们也有SDK、API,定价与我们类似,都是按音视频使用量收费。但是他们没有免费分钟,我们的视频也比他们简单和友好的多,Tokbox的5人通话按照20倍的标准计费,而声网则是按照5倍的标准。

在业务上的区别,Tokbox缺乏虚拟通信网的建设,所有服务走公网渠道,总共6个机房,都在美国,对传输非常不利。而声网是走虚拟网加服务器传输协议所造就的虚拟网络使用模式,大大提升音视频质量。

比较独特的是,我们还提供QoE质量保障的实时通信服务,目前从我们全球的客户反馈来看,都非常肯定声网的服务。

Q:RTC到规模使用还需多长时间?

A:现在已经算大规模使用,声网今年做到50亿分钟的通话时长,而且全部是付费的,在一年不到的商用时间内,规模算很大的。对未来的快速增长,我们非常有信心。

Q:目前成本集中在?

A:成本集中在带宽服务器,以及研发上。团队绝大部分是技术团队,随着使用量的成长,研发成本基本上就会摊薄。

Q:面向哪些群体?

A:主要面向企业,开发者,技术人员和创业者。

Q:如何获得小米和陌陌这样的大客户?

A:作为分别在个人消费娱乐与社交有重大影响力的重量级企业,小米互娱与陌陌不约而同地选择了声网Agora.io的高清实时通信云服务,决非偶然。这其中除了声网Agora.io对移动互联网背景下的实时通信技术的极致专注与小米和陌陌的理念不谋而合外,更重要的是其产品经受住了严苛的遴选与测试。

小米互娱与声网Agora.io合作的着眼点是基于后者的高清实时通信云服务,为米粉提供高清、稳定的音视频通信产品。秉承小米追求极致的一贯理念,为保证最佳实时音视频通话体验,小米互娱对高清实时通信合作伙伴的筛选和测试极为严苛,投入大量资源搭建了业内最专业的互联网音视频测试实验室,并基于小米互娱手机的声学测试实验室和思博伦专业设备对音频质量进行了客观测试;与此同时,还联合北京理工大学、泰尔实验室等多家业内最具权威性的研究和测试机构共同建立了一整套严格完善的音视频测试方法。

声网Agora以绝对优势通过了这一系列严苛测试,顺利拿到了小米互娱的通行证。当时,小米互娱通过严格、完善的音视频测试方法,对包括声网Agora.io在内的多款世界范围内最优秀的实时通信产品进行了横向对比。而声网Agora在这两类测试中表现都最为优秀,这也使得小米互娱最终选择声网Agora.io作为战略合作伙伴,以保证能为米粉提供最佳的通话体验。”

过硬的技术优势,经得起一系列的遴选和测试,才是这些大的客户选择声网Agora的主要理由。

Q:如何做产品推广?

A:我们的定位是技术人为技术人提供服务,而不是为推广而推广,目前团队中大部分是研发人员,但是都能参与到推广过程中。

Q:不超过10,000分钟免费的策略将继续?

是的,定价模式可能会变化,但到策略是提供廉价并且是随处可见的服务,为全球开发者服务

Q:声网未来的方向?

A:声网起步时偏通信,但是不局限于通信,从直播开始,未来还有很多空间。随着行业发展,实时互联网将是一个新的大的统一的领域。

Q:团队经营战略?

A:我们的团队是一直都比较挑人的,希望是给力的队友,行业本质上靠创造力。根据实际需求,团队也会持续扩张。

Q:在2015年7月上线语音通话SDK,此前却已经拿到两轮融资,这段时间声网在做些什么?

A:声网是一家偏技术的公司,实际最早产品是14年9月份的β,Hellotalk在使用β之后用户量涨了几十倍。而声网真正商业化运营是2015年Q3开始。