anyRTC AI降噪|让声音更清晰

原创

anyRTC 2021-05-28 11:57:55 ©著作权

©著作权归作者所有：来自51CTO博客作者anyRTC的原创作品，请联系作者获取转载授权，否则将追究法律责任

什么是AI

近几年AI不断进入公众视野，那么到底什么是AI？AI又会对我们现在的生活产生什么样的影响，今天就和大家简单的聊一聊。

人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

AI的展现方式有很多，可以是自动驾驶的汽车，可以是围棋高手阿尔法狗，可以是美国大片里面的超级计算机，而我们今天要介绍的是anyRTC最新开发的AI降噪功能。

AI降噪在音视频中的应用

AI降噪能在音视频中应用到哪些场景下面给大家举例说明一下：

1、在线教育方面

如今在线教育越来越被家长，老师，同学所接受，所以更好的线上教育质量也是很多人所关心的问题，无论是视频质量，还是音频质量都是缺一不可的。传统的在线课堂中，如果周围比较嘈杂的话，将会影响学生在课堂上的听讲。没有办法有一个好的上课效果。

anyRTC AI降噪|让声音更清晰_anyRTC

2、在线会议方面

由于疫情的原因在线会议被很多公司，学校，和政府机关所使用。在线会议系统可有效地提高对全球各地的客户、合作伙伴以及同事在线协同合作的效率，让产品演示、共享应用程序以及开展专案协作就如同你们近在咫尺那样容易。在线会议弥补了传统会议的效率低下、成本高昂等缺陷，促使我们回到会议本身，在降低成本的同时提高生产力，从而帮助我们获得更多的商业利益。

anyRTC AI降噪|让声音更清晰_音视频_02

而我们经常会遇到临时开会的可能性，比如说你在地铁上面，你在餐厅正在吃饭，你正在外面逛街，但是这个会议你又不得不参加，而周围的环境却十分嘈杂，让你没办法能听清楚会议的要点，从而影响你的工作效率。

3、语音连麦，游戏开黑

语音连麦，游戏开黑现在也是现在娱乐行业非常热门的一个环节，主播与主播，主播与用户之间连麦沟通，可以增强直播效果，增加用户的粘性。游戏开黑更加受到年轻人的喜爱，大家在打游戏的时候可以保证良好的沟通，让游戏效果更加完整。

语音连麦和游戏开黑都对周围环境有着很高的要求，周围的环境如果比较嘈杂就没有办法有很好的沟通效果。就拿游戏比赛直播来说，比赛台上选手们时时刻刻都在进行着沟通，台下的用户会经常给选手们加油打气，从而造成队友之间的沟通不清楚，听不清指令，对游戏的进行有很大的影响。

anyRTC AI降噪|让声音更清晰_音视频_03

对于以上场景anyRTC AI降噪都可以有效的解决。anyRTC可以自动检测你周围的环境，分离你的人声和周围的噪音，有效的突出人声，屏蔽噪音，保证通话的质量。

AI降噪的技术难点

AI降噪适用于我们工作生活中的很多场景，但是如何能完美的实现降噪的效果，还是有很多的技术难点需要克服的。

1、如何分离人声和背景噪音，如何精准的突出人声，消除背景声

2、如何保证实时性：有的算法AI降噪效果好，但是实时性太差

3、AI模型大，算力要求高，不能运用于移动端和IoT设备

anyRTC AI降噪融合了深度神经网络降噪模型，补充了声波的空间信息，还利用深度神经网络对高频噪声作为训练集，把对语音通话的干扰抑制的更干净，为了节省计算资源，我们采用了模型裁剪手段,性能消耗较低,实时性得到保证。

anyRTC 音频降噪中的成果

anyRTC自19年6月成立AI实验室以来，经过长达一年多的时间，收集公开语音数据资源，以及第三方提供的数据和自己的内部会议来训练AI模型。噪音抑制功能将分析用户的音频输入，并使用经过特殊训练的深度神经网络来减少背景声音，例如键盘的敲击声、风扇产生的噪音等。目前我们anyRTC已经配备了全套工具和环境，我们现在已经自己采集了很多数据集，并且应用到了我们AI算法中。下面就是我们anyRTC在AI音频模型中取得的成就：

智能降噪：基于计算听觉场景分析理论，应用深度学习技术，能够在不依赖任何硬件的基础上，实现将人声和噪音分离，有效抑制环境中的各种噪音。
DHS深度啸叫抑制：基于深度学习技术，智能阻断声反馈回路，抑制啸叫产生。有效解决实时游戏、在线会议等多人实时通话场景下啸叫问题。

点击视频查看看效果

智能降噪演示场景

anyRTC AI降噪演示场景

啸叫抑制演示场景

啸叫抑制演示场景

anyRTC AI 降噪技术规划的关键策略包括音频通信核心体验、声音场景分类和处理、音频痛点难点问题及差异化体验，最终目标则是提升语音可懂度、自然度、舒适度。

anyRTC 在AI领域的其他成果

AI+实时音频处理这个方向其实还有很多可以探索的，除了AI降噪功能外，anyRTC在其他领域也有所涉及：AI 智能传输，超分辨率，智能插帧，图像增强等。

AI智能传输

由于网络传输线路上有丢包，接收的数据有失真，所以 AI 智能传输被用来做算法补偿，提升传输质量。
超分辨率

实时通信视频在接收端提高原有图像的分辨率，得到高分辨率的图像，该功能有效减少了网络传输带宽，为移动端为用户带来极致视频体验。
智能插帧

智能插帧是通过运动估算，计算出画面中物体的运动轨迹，生成新的帧来进行插补。可以将普通常见的30fps进行智能插帧计算，可以获得60fps的顺滑视频，让眼睛看到的自然形象更为自然。
图像增强

图象增强是数字图象处理常用的技术之一。图象增强技术的目的是为了改进图象的质量,以达到赏心悦目的效果。通常要完成的工作是除去图象中的噪声,使边缘清晰以及突出图象中的某些性质等。