今天来学习一下如何解析和封装 MP4。这次我们使用的 API 是 MediaExtractor 和 MediaMuxer。

一个用来解析,一个用来封装。

API 简介

MediaExtractor 是什么?

顾名思义,MediaExtractor 可以从数据源中提取经过编码的媒体数据。MediaExtractor 不仅可以解析本地媒体文件,还可以解析网络媒体资源。

MediaMuxer 是什么?

同样,名字已经说明了一切。MediaMuxer 可以将多个流混合封装起来,支持 MP4、Webm 和 3GP 文件作为输出,而且从 Android N 开始,已经支持在 MP4 中混合 B 帧了。

这次的任务是什么?

这次的任务是从一个 MP4 文件中只提取视频数据,并封装为一个新的 MP4 文件。外在表现就是将一个有声视频,转换为一个无声视频

如何实现?

实现部分主要靠 MediaExtractor 提取轨道信息,然后用 MediaMuxer 将数据封装。步骤如下:

  1. MediaExtractor 设置数据源,就是我们将要解析的文件的路径地址
  2. 使用 MediaExtractor 获取到我们的目标轨道。比如这次我们就需要的是视频轨道。

这里给出一个轨道的样例信息:

{track-id=1, level=16, mime=video/avc, frame-count=374, profile=65536, language=und, color-standard=4, display-width=320, csd-1=java.nio.HeapByteBuffer[pos=0 lim=8 cap=8], color-transfer=3, durationUs=12612000, display-height=240, width=320, color-range=2, max-input-size=4676, frame-rate=30, height=240, csd-0=java.nio.HeapByteBuffer[pos=0 lim=29 cap=29]}
  1. 拿到轨道后,我们一帧一帧的读取数据,同时将数据一帧一帧地写到 MediaMuxer 中进行封装。

代码部分

val mediaExtractor = MediaExtractor()
mediaExtractor.setDataSource(oriVideoPath)
var videoOnlyTackIndex = -1
var frameRate = 0
val mediaMuxer =
    MediaMuxer(outputVideoOnlyPath, MediaMuxer.OutputFormat.MUXER_OUTPUT_MPEG_4)
for (trackIndex in 0 until mediaExtractor.trackCount) {
    val trackFormat = mediaExtractor.getTrackFormat(trackIndex)
    val mime = trackFormat.getString(MediaFormat.KEY_MIME)
    if (mime == null || !mime.startsWith("video/")) {
        // 如果不是视频轨道,则跳过
        continue
    }
    frameRate = trackFormat.getInteger(MediaFormat.KEY_FRAME_RATE)
    mediaExtractor.selectTrack(trackIndex)
    videoOnlyTackIndex = mediaMuxer.addTrack(trackFormat)
    mediaMuxer.start()
}
if (videoOnlyTackIndex == -1) {
    return
}
val bufferInfo = MediaCodec.BufferInfo()
bufferInfo.presentationTimeUs = 0
var sampleSize = 0
val buffer = ByteBuffer.allocate(500 * 1024)
val sampleTime = mediaExtractor.cachedDuration
while (mediaExtractor.readSampleData(buffer, 0).also {
        sampleSize = it
    } > 0) {
    bufferInfo.size = sampleSize
    bufferInfo.flags = MediaCodec.BUFFER_FLAG_KEY_FRAME
    bufferInfo.presentationTimeUs  = 1000 * 1000 / frameRate
    mediaMuxer.writeSampleData(videoOnlyTackIndex, buffer, bufferInfo)
    mediaExtractor.advance()
}
mediaExtractor.release()
mediaMuxer.stop()
mediaMuxer.release()

代码大概如上所示,但是还有几个问题没有搞清楚。

遗留问题

  1. 我们读取每一帧数据的时候,需要一个 buffer,那么这个 buffer 是怎么来的呢?
  2. 实际解析过程中,我们可以看到:每一帧的大小其实是不一样的,那这又是为什么呢?

在这里简单解释一下第一个问题(可能不太准确):

这个 buffer 的大小其实是可以根据每一帧的最大大小来设定。而每一帧的最大大小,取决于视频的分辨率编码格式,所以就有了下边这个公式:

每一帧最大大小 = H x W x 编码格式系数

第二个问题后面再聊~