视讯应用技术解析

原创

weixiaowenrou 2013-04-19 15:45:41 ©著作权

©著作权归作者所有：来自51CTO博客作者weixiaowenrou的原创作品，请联系作者获取转载授权，否则将追究法律责任

随着视频通讯应用技术的不断发展和完善，越来越多的行业用户接受和使用视频通信产品。但在传统视频通讯技术标准下，由于受到视频通讯应用技术和音视频编解码技术发展的制约，视频通讯技术到现在还没有从根本上解决通讯过程中的图像和声音问题。低等级的视频质量无法满足用户对高清晰图像质量的特殊需求。

传统视频通讯的主要问题是：经过编解码后的图像在解析度、色彩还原度等方面和真实场景有较大的差距。造成这一现象的原因方面是由于编解码设备的编解码效率低、链路动态适应能力差等诸多因素导致对真场景还原失真。另外在音频方面，传统的50Hz-7KHz只能感受到较窄的音频宽度并不能对现场环境和声音特征进行有效还原，需要音频编解码提供更高的音频采样率，以实现更宽的音频效果。在现实运用中，人们对于视频的图像和声音的要求越来越高，例如：远程医疗、远程手术；远程维修等需要通过视频通讯这一过程实现对现场情况的精确视频传输（高清晰视频应用）。所以就需要我们提供更高视频通讯质量的高清晰视频通讯产品。因此佰锐科技推出了基于标准的H.264;H.264的高清晰视频通讯产品Anychat、Icloudsoft等系列。

高清晰视频通讯技术的选择：

视频要求：

视频通讯应用作为一种媒体应用方式同样需要遵循各标准组织所倡导的高清晰多媒体标准。当前高清晰数字电视（HDTV）所倡导的视频解析度主要有三种格式，分别为720P、1080I、1080P （其中“P”为逐行扫描方式；“I”为隔行扫描方式）。而高清晰视频通讯主要应用格式为：720P——即逐行720线。

视频通讯采用逐行扫描的原因在于，视频会议场景通常对动态图像要求不大（特殊领域除外），图像动态变化也较小，但对图像的细节要求却很高，同时还要保证图像的稳定性。而这些都是采用隔行扫描1080i（PAL制每秒钟扫描50场，分别对水平方向的奇数行和偶数行进行扫描，每场的实际解析度仅有540线）所无法满足的，因此在扫描方式上采用逐行扫描，能够更稳定的显示画面的细节，使得画面更加清晰。

在媒体流处理方面，需要将大量的原始视频音频数据流进行编码压缩后在传输链路上进行压缩传输。高清晰音视频流（720P）所处理的视频流是传统CIF格式流的10倍。如果采用更大解析度格式的视频图像，如1080P，会造成原始媒体数据流更为巨大，从而影响视频编码效率，降低通讯过程的实时性，增加延迟，同时也是对图像实时压缩技术的考验。因此，视频会议系统的建设，无论是建设标清还是高清晰视频通讯系统都要综合考虑用户对系统建设的投资，让用户付出相对较低的成本，得到最大的收益。采用过高的视频图像格式（1080P）进行媒体流的处理，这样对DSP的成本会增加，同时也会相应造成用户整体成本的增加，例如视频会议系统的周边配套设备——高清晰显示设备、回放设备、存储设备和主要的摄像采集设备，都要符合高清晰通讯的规程（高清晰视频通讯是一个完整的端到端的系统），而这些设备的价格都远超其他设备，会使得整体成本大幅提升，从而给用户所能带来的实际效果提升却并不明显。因此，采用720P视频格式作为图像解析度的格式能够使整体系统达到最佳的性价比，能够有效的降低用户的采购成本，避免投资浪费。

在图像的幅面显示方面，目前高清晰显示设备均可以同时支持4：3和16：9两种显示方式。传统视频通讯系统多数采用4：3显示方式，而高清晰视频通讯在视频格式幅型比上应采用更为符合人眼观赏习惯的16：9的显示方式来替代传统视频会议系统采用的4:3的显示方式，这是因为屏幕显示区域在垂直解像度（线数）相同的情况下，采用16：9显示方式可视面积比4：3显示方式的可视面积要增加20％左右，单帧画面可容纳更多的视频信息，这样视频通讯中用户就可以获得更大角度的视频图像。

所以综述得出结论是：在对高清晰视频通讯视频图像的最佳选择应该是：选择720P视频格式、16：9幅面的高清晰视频标准。

音频要求：

视频通讯过程是视频和音频的实时双向完整通讯过程。在这个过程中我们为了获得高清晰视频图像，有时却忽略了另外一个重要的过程——音频通讯过程。如果我们在观看高清晰视频图像的时候，不能得到一个更清晰、连续的音频效果。那么这个过程实际上就没有任何意义，所以其重要性甚至超过视频。在传统的视频会议系统中音频技术发展极其缓慢，原因在于目前应用于视频通讯的音频编解码压缩标准都是为了保持传输时的低带宽占用和较高的编解码效率，从而将音频信号的采样频率、采样精度和采样范围指标做了极大的降低，使得所能提供的音频清晰度和还原性都有很大程度上的衰减。与用于存储和回放非实时压缩协议的标准（如OGG、MP3等）相比，音频的保真度非常低。这样就在某种程度上对现场声音的还原达不到要求。目前传统视频通讯过程中主要采用的是G.711、G.722、G.722.1、G.728等音频标准，音频宽度仅有50Hz－7KHz单声道，而人耳所能感知的自然界的频响能力可以达到20Hz－20KHz，因此，在对现场环境音的还原过程中过多的音频信息的丢失造成了无法真实表现现场情况。所以在高清晰视频通讯过程中我们势必要有一种相辅助的音频处理方式解决此问题。使真个高清晰通讯过程更去近于完美。

目前国际上对音频处理技术上标准较多，在对下一代实时交互音频处理上可以采用MPEG-1 Layer 2或AAC系列音频，对选用标准的原则是，音频频响范围要达到22KHz，这样就几乎可以覆盖了人耳听觉的全部范围，甚至在高频方面还有所超越，能够使现场音频得到真实自然的还原，并且在还原时可以采用双声道立体声回放，使整个视频通讯的声音有更强的临近感，达到CD级音质。同时在对链路带宽的适应和编解码效率上达到最佳。下表列出AAC的9种规格。

标准	规格
MPEG-2 AAC MAIN	主标准，对音频处理上，缺少增益控制
MPEG-2 AAC LC	使用了TNS，缺少增益和预测，提高编码效率
MPEG-2AAC ×××	可变取样方式
MPEG-4 AAC LC	低复杂度编码方式
MPEG-4 AAC MAIN	主标准
MPEG-4 AAC ×××	可变取样方式
MPEG-4 AAC LD	低延迟编码方式
MPEG-4 AAC HE	高效率编码方式
MPEG-4 AAC LTP	长时预测规格

综上所述，我们在对宽频音频的支持上可以选择MPEG-1 Layer 2或AAC系列标准，在上述列表中可以看出有9种AAC格式可供选择，每种格式均有各自特点。在下一代高清晰视频通讯应用领域中为用户提供CD级的宽频音频是我们追求的方向。

总结：

Anychat是一套跨平台的即时通讯解决方案，基于先进的H.264视频编码标准、AAC音频编码标准与P2P技术，整合了佰锐科技在音视频编码、多媒体通讯领域领先的开发技术和丰富的产品经验而设计的高质量、宽适应性、分布式、模块化的网络音视频互动平台（支持Windows、Mobile、Linux、Android、IOS、Web等平台）。