好久没有更新了,这次来简单的介绍一下自适应视频播放的相关技术。
说到自适应视频播放(Adaptive Streaming),网上的资料不多,可以供大家测试的视频播放器也没有多少,所以很多朋友都无从下手学习。这次来给大家分享一下自适应视频播放技术的基础原理,具体实现可以参考Exoplayer的源码,这篇文章也会稍微介绍一下。
1.自适应视频播放技术的原理
首先,我们所谓的自适应视频播放技术中的自适应,适应的到底是什么呢?
在在线视频播放中,最重要的一个要素应该就属于客户端的网络状况了,如果网络状况很差,俗称的网速很慢,那么大家一般的体验都是视频很卡,看一会就停一会。那么有没有可能让我们的播放器自动检测网络状况,在网络差的情况下播放清晰度较差,数据量较小的视频,当网络情况变得好的时候播放清晰度好,但是数据量大的视频呢?
哈哈答案是肯定的,自适应视频播放技术就解决了这个问题。先给大家看一个前端播放器的示意图。
通常来讲,自适应播放技术一般包括前端的支持还有后台的支持,后台提供一个索引表(Manifest),上面记录了同一个视频不同清晰度的版本的Url(比如视频的240p,480p,720p不同的版本文件)。前端的播放器在拿到这个索引表之后,会根据自身的网络状态,在不同清晰度直接的视频文件转换。
就如上图所示,横轴是时间,竖轴是清晰度。在示例里面,我们有三种不同清晰度的视频文件,同时每个视频文件一般是切割成以五秒或者十秒为一个单位的块(Chunk),每次播放器加载播放都是以块为单位。
所以说到底,自适应视频并不是同一个容器文件(container)里面封装了所有视频轨道数据(当然理论上来说也不是不行),而是根据索引表的内容,和自身网络的下载速度决定播放哪一个具体的容器文件罢了。
2.自适应视频播放的规范
现在市面上的Adaptive Streaming肯定以?的HLS,还有另一个叫DASH的规范最为流行,我们这次以DASH这个规范来深入了解一下自适应视频播放的一些细节。
2.1 DASH里面的MPD文件
MPD文件格式,就是我们在第一部分中说到的索引表Manifest了(HLS对应的索引表格式叫M3u8),它包含了所有DASH自适应视频的信息。 我们以一个mpd为例子,点击这里下载。
让我们用xml reader来看看具体里面有什么内容:
2.1.1 adaptionset
每个mpd文件都会有至少一个adaptionset,用来记录音频/视频文件们的位置,如上图所示,该MPd有两组数据,一组是视频,一组是音频
2.1.2 representation
每个adaptionset里面又会有多个representation,每一个representation其实就是代表了一个分辨率的视频(或者音频,这里主要以视频讲解为主)。最重要的三个参数我都打上了注解,注意到视频的url是相对Url,也就是相对于该mpd文件的位置。比如第一个mp4文件绝对地址就是mpd的path+file name = http://yt-dash-mse-test.commondatastorage.googleapis.com/media/car-20120827-88.mp4
2.2 DASH对播放器行为的规范
mpd文件相信大家也有大致的了解了,那么播放器既然有了mpd文件,那怎么进行视频文件的选择呢?
其实很简单,大家都看到了不同的representation都有一个bandwith的参数,这个参数规定了要使用该视频文件的最低带宽(如果没记错应该是以bit为单位。
以上述mpd为例,视频分辨率由高到低的bandwith排列是:4190760 bit(4.2MB/s) ,2073921 bit(2.1 MB/s) , 869460 bit(0.9MB/s)....... 播放器每下载一些内容,都会计算当前的下载速度,然后根据当前的下载速度,从最高的分辨率开始,一路遍历直到找到合适的视频文件。
这里附上一段ExoPlayer的源代码,可以更加清晰的了解播放器怎么选择不同分辨率(其实代码非常的简单)
2.3 DASH - Fragmented MP4
我们在第一部分说过,自适应视频的文件会被切割成块,但是貌似我们看到的都是完整的mp4文件呀,说好的切割呢?
在DASH规范中,每个mp4都不是普通的mp4,而是一种叫Fragmented Mp4,中文可以翻译为分段式MP4文件。它的特殊之处在于,一般的mp4视频都是一个moov header,后面跟上一组mdat数据(不清楚文件结构可以参考我的第一篇文章),而fragmented MP4则会将视频数据分为多个mdat块。
我们用mp4 parser 来分析一下
上图是一个普通的mp4文件
上图则是一个分段式的mp4文件,我们可以看到文件的mdat被分为了若干块,同时还有多一个sdix header,这个header记录了每个mdat的位置和相应的大小,和时间的长度(一般每个mdat的时间长度都一样,为若干秒)
这次就稍微分享一下自适应视频的大概原理,具体的技术,例如播放器如何进行下载的控制,下载单位是什么,等等会在之后对ExoPlayer源码的分析中分享,如果有着急的问题可以留言。
2.小结
其实根据上面的分析,我们已经对自适应视频(Adaptive Streaming)有了初步的了解,也可以说在这个技术上,其实并不存在什么黑科技,在视频处理的过程的MPD文件,也就是Manifest,包含了所有在转换分辨率时的信息,播放器只需要把这个MPD保存起来,就可以根据当前的下载速度做对应分辨率的选择。至于
1.播放器的下载Chunk的策略如何?多线程下载还是单线程下载?
2.初始Chunk的数量(缓存多少个Chunk可以开始播放)
3.播放器的Chunk抛弃策略如何?比如当前已经下载了0-2号的Chunk,结果用户快进了100秒,那是丢弃当前的0-2号chunk还是保留。
这些一系列的细节,都是取决于播放器开发者自己,或者说开发者基于DASH这个协议上的改进。Exoplayer是安卓平台上支持DASH的开源播放器比较好的学习例子。接下来我会着重讲讲Exoplayer的源代码的一些实现。