对话实录|华为云.通信云激活无限商业潜力_视频通话

在LiveVideoStackCon2019深圳音视频技术大会前夕,我们邀请到了华为云核心网产品线,高级架构师左俊老师接受采访,采访中左俊老师从自身十五年的架构师经验出发浅谈了自己对于近几年音视频通话技术的发展,并从覆盖场景、数据安全和视频质量审核等方面介绍了华为云通信云服务的优势。

文 / 左俊

整理 / LiveVideoStack

LiveVideoStack:左俊你好,能否先向LiveVideoStack的读者介绍下自己,以及你目前主要的工作以及关注的技术方向?

 

左俊:我目前主要的负责是华为云.通信云服务整个解决方案的架构和技术。华为云.通信云服务目前包括如下四个服务:视频通话服务、隐私保护通话服务、语音通话服务、短信服务。当下,我主要关注的有以下两点:

 

  1. 音视频方案中的效果及质量问题,这个是整个音视频解决方案最为基础的部分,华为在运营商市场实时音视频的成功实践,为解决互联网视频通话的效果和质量问题,提供有效的借鉴和支撑,这也是华为云.视频通话服务快速孵化的基础。
  2. 解决方案中的安全韧性及合法合规问题,虽然这不是基础业务的一部分,但是这个是客户能够获取持久保障的前提,华为很看重这一块,也能够保证向客户持续地提供可靠可信的服务。

 

此外还有系统的开放性灵活性,成本管理,客户的个性化服务等,也都是整个解决方案中不可或缺的一环。

 

LiveVideoStack:作为在运营商话音解决方案系统方面有超过15年经验的高级架构师,你如何看待近几年音视频通话技术的发展?

 

左俊:近些年通过开源技术以及整个通信技术栈迁移到IP上,音视频通话的整个技术栈发展的速度很快,基于开源软件的创新解决方案层出不穷,这是整个行业技术水平提升的一个重要表现。但是开源软件面向的目标是提供普遍服务,对于极致的音视频效果和质量仍然需要各家使用自己的十八般武艺去不断的追求,这个需要长期的技术积累与投入。举一个编解码方面的例子,得益于在音视频编解码标准、算法、创新场景的长期投入,华为HW265编码器包揽了世界视频编码器大赛全部三条赛道第一,并毫无悬念地获得总成绩第一名。继2018年夺冠后,成功卫冕,蝉联2019年大赛冠军,这些基础技术是华为视频通信效果及质量的基础。

 

此外,AI加持后的音视频也变得越来越有趣,这个也是近些年来一个重要的变化。AI不仅仅上能做人脸检测,下能做表情叠加,还能在音视频技术的其他环节都产生一些显著的效果。一个小小的实时音视频通信仅媒体面就涉及前前后后二十多个环节,可喜的是如今已经看到不少的环节已经在用新技术去优化体验效果了,如华为云.视频通话中的实时超分辨率技术,强化学习的抗丢包方法。相信未来这块会有越来越多的实质性进展,会给我们带来各种增强的效果。

LiveVideoStack:作为运营商出身的华为,在互联网实时音视频与传统话音关系是什么?关于两者的结合华为云是如何思考的?

 

左俊:首先,互联网实时音视频的主要技术基础都是来源于在运营商业务中的积累,当然也吸收了部分互联网开源的好组件。举个例子,运营商业务在极致的可靠性及并发处理上有着独特的技术要求,这也催生了华为云.通信云服务的极致可靠性与高质量,我们在视频通话设计的时候就在各个层级做到了跨Region级别的容灾,对于关键节点,甚至考虑了异网备份:实际数据表明,自上线运行以来,华为云.视频通话可用性超过4个9,这个是一个比较优异的成绩。

 

其次,技术的共享是双向的,新的技术点也使得运营商网络焕发新的机会,比如一些海外先进运营商也在逐步认可通过华为云服务为他们的客户提供一揽子话音解决方案,不但快速的部署了业务(东南亚某客户部署中,本身设备1个月以内完成上线,运营商侧预计3个月内集成),还降低了25%成本。我们也在将线上先进的技术引入到运营商网络的同时,也在将线上的流量导入到线下,一方面让运营商通过网络能力开放获得更多的收益,另一方面也使得线上客户连接线下客户更加的方便与便捷。

 

第三,运营商网络音视频在一开始就关注全球一张网的互联互通,包括不同制式,不同运营商,不同国家之间都是可以无缝互通,这是运营商音视频网络天然的优势,不像互联网技术的音视频往往都是各自独立的自成体系网络,往往比较难满足市场多样化的互通需求。华为的音视频解决方案在一开始就考虑了相关的互联互通需求,能够实现手机,平板,电视,音箱,固话等所有可能的终端之间的互联互通。

 

LiveVideoStack:华为云.视频通话服务与其他厂商相比有哪些独到的方案与技术?

 

左俊:华为云.视频通话服务目前主要在自研编解码,AI处理,可靠性与韧性,线上线下网络互通性,全球覆盖就近接入网络,合规运营,用户隐私与保护等方面是有比较大的优势的。举几个例子:

 

  1. 编解码与音视频质量,2019年莫斯科国立大学举办的MSU世界视频编码器大赛上,HW265在Fast快速编码场景下以62%的编码压缩率领先第二名5个百分点的成绩获得第一名;在其他一些方面,华为云.视频通话服务在比如ROI感知编码,弱网条件下视频自动超分辨率,E2E时延优化,全球覆盖就近接入网络,网络适应性的强化学习的网络带宽预估,视频长期参考帧均有应用,使得整体的效果不管是网络正常还是网络丢包网络带宽受限场景都有优异的表现,视频U-vMOS(华为视频体验衡量体系评价标准)相比较不带这些效果提升0.6分以上。
  2. DFx,可靠性,华为云.视频通话服务在各个层级做到了跨Region级别的容灾,对于关键节点,考虑了异网备份,与此同时,华为依赖ICT领域多年在故障模式的积累,提前对六十多种典型的故障场景在现网进行提前的故障注入演练,确保了典型故障场景业务无中断,上线以来的数据表明实际可用性超过4个9。
  3. 用户隐私与保护方面,华为运营平台也是最为合规的用户数据保护平台,在数据存储、传输、使用等各个方面均满足当地国家的法律法规,包括GDPR要求的各项规定。华为坚持“上不碰应用、下不碰数据”,对用户自身产生的数据全部交给用户进行加密处理,这里面就包括用户提出的录音存储等诉求。

 

LiveVideoStack:目前华为云.视频通话服务都覆盖到了哪些行业场景?为匹配多种商业场景,你们团队在编码、转码、网络等方面又有哪些储备?

 

左俊:目前我们主要面向行业包括“在线教育”、“智能终端”、“社交娱乐”三个场景,这里拿智能终端举例说明。在今年8月上旬华为开发者大会上发布的畅连通话背后的服务支持就是来自于华为云.视频通话服务,这里面包含几点关键技术:

 

  1. 解决方案层面:
    全场景互联互通:支持手机、平板、电视、音箱、手表的全场景互联互通
  2. 音视频技术层面:
    H265 720P:首次将H.265 720P应用于大规模实时通信系统,码率降低到传统系统的60%。(软硬结合,华为手机专项优化)
    动态感知的视频超分技术+ROI感知编码:网络不佳,画质下降时,自动提升画质体验,结合ROI感知编码技术,让最终用户的体验更加清晰流畅
  3. 网络路由及适应性方面:
    感知切换:支持WIFI与无线分组的无感知切换(软硬结合,华为手机专项优化双连接+网络侧首包学习)
    基于网络适应性强化学习的网络带宽预估:实时准确预测网络带宽,作为编码器的输入,形成联动,保证视频效果
    承载网络优化:基于华为在IP网络以及华为云在网络接入方面的积累和储备,华为视频云服务实现了在全国任何接入网络条件下的IP路径最优,提升了用户体验

 

LiveVideoStack:计算服务具有高效、便捷、节约成本等诸多优势,随着云服务市场的快速发展,越来越多的运营商和行业客户开始采用实时通信云服务产品,那么在数据存储方面华为云.视频通话服务是如何保障数据安全、保护用户隐私的?

 

左俊:的确,你说的这点正是许许多多客户有所顾虑的。华为云.视频通话服务在设计之初就已经考虑了数据存储、传输、使用的过程中满足当地各个国家的法律法规,直接考虑的是面向的是全球化运营场景。华为云.视频通话服务遵循华为云的“上不碰应用、下不碰数据,不做股权投资”原则,高度重视用户隐私保护,切实贯彻适用法律法规的要求,内部也有一套相应的管理办法,保证华为公有云上的数据完全满足GDPR的要求。对于一般的多流转发音视频通信,RTP媒体在路径中是不被存储的,各个节点只是基于最优路径的转发,类似基于路由表的路由器;再举用户录音存储诉求来说,这类的媒体都会由客户自行管理的密钥进行加密或者是存储在客户指定的存储资源上,这些数据从解决方案上已经设计为无法被第三方获取。

 

LiveVideoStack:实时通信更强调低延时和接通率,华为云.视频通话服务在这方面都做了哪些工作?

 

左俊:低时延实际是一个相对的概念,ITU-T G.114建议的值是400ms以内的单向时延,基于这个值绝大多数用户语音通信是可以接受的。但是在某些特殊场景,比如双方着急说话形成的双讲场景,远程K歌,VR/AR互动等场景,这个值的要求就得严格许多。针对网络质量较好的的视频通信场景,统计值95%的情况下从采集到屏幕呈现基本维持在300ms以内,这里的软件优化点还是很多很细的,比如Cache的调整,网络路径的优化,网络侧复制转发的优化等等。

 

另外,在弱网情况下,时延常常可能超越视频质量成为通信第一要素(宁可没有视频,也要保证有音频实时)。一般情况下,视频的处理往往是后处理模块使用FEC进行冗余,但是这往往会因为增大buffer而增大时延。我们敏锐的感觉到,单调的修改网络适应性模块是不够的,必须要在编码器与网络适应性模块间形成联动,通过反馈环才能从E2E角度去降低冗余和时延。为此,华为研发的网络适应性强化学习模块能够实时准确预测网络带宽,作为编码器的输入,实时调整编码器比特率输出,避免整个系统陷入越是带宽不够->越要抗丢包->越要冗余增加带宽的恶性循环。当然这一招不会是银弹,整个通信视频中低时延处理是一个系统工程,我相信各个厂家在这方面都有自己的看门绝技,也欢迎大家一起交流。

 

LiveVideoStack:视频质量对于实时通信来说也非常重要,华为云在这方面都做了哪些工作来提升用户的使用体验?

 

左俊:

  1. 选择一个好的编解码器,华为视频通信选择的是自研的HW265
  2. 有一个好的冗余及抗网络抖动算法
  3. 优化无止境,通过照镜子的方式匿名统计用户质量数据来进行有针对性的改进,比如故障树分析。

 

LiveVideoStack:云上的海量视频如果仅靠人工审核远远无法满足需求,针对视频质量审核华为云有哪些独到的审核方案?

 

左俊:我这里先大胆的解下题,假定是针对视频质量的审核,而不是针对内容是否合规的检查。

 

实时通信中的质量审核的确非常的重要,比如在教育场景,就有诸多的监课员负责课堂质量审核。在一方面提升系统应对各种网络质量的同时,一个自我认知的“照镜子”系统也是关键手段,不仅能够让服务运营发现共性问题,还能帮助客户去定位最终用户的各种使用问题。华为云.视频通话服务的“镜子”系统通过自研的U-vMOS算法自动实时计算当前会话各路的音视频质量,并上报给Ops系统,在客户界面就可以准实时观察到当前正在进行的多方通话的质量情况。此外,我们还实施了故障树智能分析功能,可以帮助客户管理员自动的定位问题,缓解了很多人对音视频基础知识匮乏的问题。

 

LiveVideoStack:随着5G时代的来临,网络传输延迟将变得更低,这会引发哪些更实时的音视频交互体验?网络带宽变大对实时通信来说是否会出现新的交互模式?

 

左俊:5G有三个大的场景,增强型移动宽带eMBB,大规模物联网mMTC和高可靠低时延URLLC。目前可见的360 VR全景通信由于涉及360度的视频传递,这里面对带宽的需求就有很大了,当然,这个里面有很多的技术手段可以去压缩&动态调整视频传输码率,如基于Tiled的编码方案,基于当前视角的FoV视频传递等。此外,对于普通的视频通信,一般还用不上5G的超低时延,但是在一些特殊场景上,比如在线K歌,AR远程指导都需要很低的时延,否则就会形成滞后感。这些在5G的SA阶段肯定会有相应的应用场景。

 

目前,全球范围来看,5G的绝大多数兴建都是以NSA为主的方案(中国三大运营商预计会在2020年启动部署SA方案),也就是说仅仅在无线侧实现了5G基站的接入,这一段的实现还无法完全释放5G定义的三大场景的对应能力,目前较成熟的也就是eMBB增强型移动大宽带场景。单纯的大带宽对通信视频的影响还是有限的,未来的创新场景还需要更多的在接入端侧有颠覆性的变化,此外,对于端侧的算力及功耗问题,还需要网络侧有一定边缘计算解决方案配合。

 

举个例子来说,AR远程协助场景,首先是基于通信的,再者由于指导端到被指导端的视频环回以及指导端可能的自由视角需求,需要将媒体路径尽可能放低(传输网络时延、QoS暂时无法保证),这就衍生出边缘计算的场景(边缘就近接入及媒体处理),目前这块还在研究的过程中,有成果了再给大家汇报。

硬派多媒体技术方案沙龙·2019深圳

从WebRTC、低延迟直播到边缘计算,从编解码Codec到AI加速,从全景视频到沉浸式音频,从5G到超高清,从金融、教育、制造等行业应用场景优化到QoE用户体验......硬派多媒体技术方案沙龙(The Future Impact of Multimedia Technology & Solutions Forum)旨在甄选技术领先、成熟的方案与案例,推动技术传播,连接多媒体技术生态上下游。

对话实录|华为云.通信云激活无限商业潜力_视频通话_02