视频编码,各种参数~sps ,pps ,nalu ,frame ,silce ect....

转载

Ai_Yang 2021-07-12 17:15:47

H.264中NAL、Slice与frame意思及相互关系
NAL nal_unit_type中的1（非IDR图像的编码条带）、2（编码条带数据分割块A）、3（编码条带数据分割块B）、4（编码条带数据分割块C）、5（IDR图像的编码条带）种类型
与
Slice种的三种编码模式：I_slice、P_slice、B_slice
还有frame的3种类型：I frame、P frame、 B frame之间有什么映射关系么？
最后，NAL nal_unit_type中的6（SEI）、7（SPS）、8（PPS）属于什么帧呢？
不好意思，文档看得头晕晕的了，问题比较多~~~
PS：偶是新人没多少分，要是哪位达人帮忙下的话我就给我所有的分，好像只有十几分
1 frame的数据可以分为多个slice.
每个slice中的数据，在帧内预测只用到自己slice的数据，与其他slice 数据没有依赖关系。
NAL 是用来将编码的数据进行大包的。比如，每一个slice 数据可以放在NAL 包中。
I frame 是自己独立编码，不依赖于其他frame 数据。
P frame 依赖 I frame 数据。
B frame 依赖 I frame, P frame 或其他 B frame 数据。
建议楼主看一点视频编码的书吧，自己看标准还是很难懂的。
那NAL nal_unit_type中的哪几种类型是I frame，现在只能确定nal_unit_type==5（IDR图像的编码条带）是I frame
sps、pps、SEI算不算I frame呢？还有属于编码条带分割的DPA、DPB、DPC呢？
能给个从视频流中提取I frame 和P frame的方法么？
谢谢楼上的回复，我也翻了两三本视频的书籍，感觉都是一个样的，都很少说到点的。楼主能推荐一两本好点的视频书籍么？
没人回答么？？
直接给你代码吧：）
//
// H.264 NAL type
enum H264NALTYPE{
H264NT_NAL = 0,
H264NT_SLICE,
H264NT_SLICE_DPA,
H264NT_SLICE_DPB,
H264NT_SLICE_DPC,
H264NT_SLICE_IDR,
H264NT_SEI,
H264NT_SPS,
H264NT_PPS,
};
int H264GetNALType(LPVOID pBSBuf, const LONG nBSLen)
{
if ( nBSLen < 5 ) // 不完整的NAL单元
return H264NT_NAL;
UINT8* pBS = (UINT8 *)pBSBuf;
ULONG nType = pBS[4] & 0×1F; // NAL类型在固定的位置上 :)
if ( nType <= H264NT_PPS )
return nType;
return 0;
}
其中 H264NT_SLICE_IDR 是关键帧，H264NT_SLICE 是P帧
一个frame是可以分割成多个Slice来编码的，而一个Slice编码之后被打包进一个NAL单元，不过NAL单元除了容纳Slice编码的码流外，还可以容纳其他数据，比如序列参数集SPS。
1、NAL、Slice与frame意思及相互关系
NAL指网络提取层，里面放一些与网络相关的信息
Slice是片的意思，264中把图像分成一帧（frame）或两场（field），而帧又可以分成一个或几个片（Slilce）；片由宏块（MB）组成。宏块是编码处理的基本单元。
2、NAL nal_unit_type中的1（非IDR图像的编码条带）、2（编码条带数据分割块A）、3（编码条带数据分割块B）、4（编码条带数据分割块C）、5（IDR图像的编码条带）种类型
与 Slice种的三种编码模式：I_slice、P_slice、B_slice
NAL nal_unit_type 里的五种类型，代表接下来数据是表示啥信息的和具体如何分块。
I_slice、P_slice、B_slice 表示I类型的片、P类型的片，B类型的片.其中I_slice为帧内预测模式编码；P_slice为单向预测编码或帧内模式；B_slice 中为双向预测或帧内模式。
3、还有frame的3种类型：I frame、P frame、 B frame之间有什么映射关系么？
I frame、P frame、 B frame关系同 I_slice、P_slice、B_slice，slice和frame区别在问题1中已经讲明白。
4、最后，NAL nal_unit_type中的6（SEI）、7（SPS）、8（PPS）属于什么帧呢？
NAL nal_unit_type 为序列参数集（SPS）、图像参数集（PPS）、增强信息（SEI）不属于啥帧的概念。表示后面的数据信息为序列参数集（SPS）、图像参数集（PPS）、增强信息（SEI）。
能给个从视频流中提取I frame 和P frame的方法么？
可以看slice中的头信息。
查找NAL起始码，然后读取NAL类型不就可以了吗
pBS[4] & 0×1F
怎么是第5个字节的第五位啊前面4字节分别是什么（值）？
NAL单元的第1个字节的低五位吧？
然后在问个问题，怎么在一段视频流中检测 NAL的开始和结束？
引用 5 楼 hugeice 的回复:

直接给你代码吧：）
//
// H.264 NAL type
enum H264NALTYPE{
H264NT_NAL = 0,
H264NT_SLICE,
H264NT_SLICE_DPA,
H264NT_SLICE_DPB,
H264NT_SLICE_DPC,
H264NT_SLICE_IDR,
H264NT_SEI,
H264NT_SPS,
H264NT_PPS,
};
int H264GetNALType(LPVOID pBSBuf, const LONG nBSLen)
{
if ( nBSLen < 5 ) // 不完整的NAL单元…
H.264视频流是以NAL单元传送的。。。但在一个NAL单元里面，可能既存放I-Slice（P-Slice或B-Slice），同事也可能存放图像的其他信息
那么是不是说 I frame， P frame，B frame是把收到的NAL单元中的VCL的信息先提取出，然后按内容进行I、P、B frame分类？
而我们只能通过NAL nal_unit_type来判别NAL单元中数据的类型哈~~~
====================================================================

《如何结合H.264标准看JM代码》这个web文件，大家都应该有了吧。不过，那个web文档是“H.264乐园”群中聊天的内容，因此看的不是很方便......我在开学来的时候看的时候，做了一些总结，希望与大家分享！不对的地方请指正！

1、一个sps后，有若干个pps吗？
这主要又编码器决定，但JM代码中只有一个

2、标准中第二栏的C是什么意思？
请看标准7.2--分类（在表中以C标记）表明了片数据被划分为三类片数据分割的情况。片数据A类分割包含所有的2类语法元素。片数据B类分割包含所有的3类语法元素。片数据C类分割包含所有的4类语法元素。其他类语法元素取值的含义未做规定。对于某些语法元素，使用一个垂直竖线表示其包含两类语法元素。在这种情况下，该语法元素将使用的分类值将在文本中进一步确定。
3、一个NALU对应一个片吗？
这种说法不太准确，NALU 包括一个片、SPS、PPS、SEI等等

4、decode_one_frame()包括I、P、B

5、 case NALU_TYPE_SLICE:
case NALU_TYPE_IDR:
case NALU_TYPE_DPA
case NALU_TYPE_DPB:
case NALU_TYPE_DPC
case NALU_TYPE_SEI:
case NALU_TYPE_PPS
case NALU_TYPE_SPS
case NALU_TYPE_AUD:
case NALU_TYPE_EOSEQ:
case NALU_TYPE_EOSTREAM:
case NALU_TYPE_FILL
问题：什么时候进入哪个，有什么说明的文章或书么？
答：进入哪个 case 是由从 NALU 头里解码出来的 nalu_type 决定的

6、解码器中的误码隐藏只对丢包有用，丢包之后，包的序号不连续，解码器一旦检测到包序号不连续就会将不连续地方的 ei_flag 置 1

7、字节流格式和RTP格式码流，具体的不同点有哪些?相关的资料哪里有?
字节流格式主要用于文件存储，因此在该格式码流中 NALU 前面只有一个开始前缀，RTP格式码流因为需要进行网络传输，因此 NALU 前面还有很多辅助信息

8、ｒｔｐ格式就是在字节流前加包头吗？
不是，字节流=开始前缀+NALU，而 RTP 中没有开始前缀

9、RTP中没有开始前缀，为什么还是要插03？
防止伪起始码、、RTP完全可以不用起始码，或许是为了与字节流格式统一吧

10、NALU是对RBSP的封装。而RTP之类的是对NALU的封装。

11、为什么要分ＡＢＣ片？
——分ＡＢＣ片主要目的是为了对重要程度不同的数据进行不同程度的保护

12、baseline没有数据分割吧?
baseline只是如何产生RBSP，如何封装NALU。具体如何传输，RTP之类只是一种方式，文件copy也是一种方式，那一般 baseline最多有多少参考帧？任意个。

13、解码profile_idc之后解码器要做什么工作?比如baseline不支持CABAC那么后面相应的位entropy_coding_mode_flag是不是就不存在了，如果存在，相抵触怎么办?
当然不会执行 CABAC 的代码，编码器如果是编码 baseline ，那么码流中自然就不存在与 CABAC 相关的语法元素，例如 entropy_coding_mode_flag ，解码器解码 SPS ，得知码流是 baseline 后，自然也就不会去调用与 CABAC 相关的解码程序，也就不会出错了。profile_idc 为 baseline ，active_pps->entropy_coding_mode_flag 就不会为 CABAC，，码流是否是 baseline 并不是由多少个参考帧决定的

14、JM 进行 CAVLC 编码时候，对于 level = 8 的情况是采用 escape suffix 处理的，我修改代码将 level = 8 的情况采用无符号数表示，结果编码出来的码流与未修改完全一样
附：RBSP、SODB、EBSP三者的区别和联系！
SODB：最原始的编码数据，没有任何附加数据
RBSP：在 SODB 的基础上加了rbsp_stop_ont_bit（bit 值为 1）并用 0 按字节补位对齐
EBSP：在 RBSP 的基础上增加了防止伪起始码字节（0X03）
1、1 frame的数据可以分为多个slice.
2、每个slice中的数据，在帧内预测只用到自己slice的数据，与其他slice 数据没有依赖关系。
3、NAL 是用来将编码的数据进行大包的。比如，每一个slice 数据可以放在NAL 包中。
4、I frame. 是自己独立编码，不依赖于其他frame. 数据。
P frame. 依赖 I frame. 数据。
B frame. 依赖 I frame, P frame. 或其他 B frame. 数据。
一个frame是可以分割成多个Slice来编码的，而一个Slice编码之后被打包进一个NAL单元，不过NAL单元除了容纳Slice编码的码流外，还可以容纳其他数据，比如序列参数集SPS。

15、NAL、Slice与frame意思及相互关系
NAL指网络提取层，里面放一些与网络相关的信息
Slice是片的意思，264中把图像分成一帧（frame）或两场（field），而帧又可以分成一个或几个片（Slilce）；片由宏块（MB）组成。宏块是编码处理的基本单元。

16、NAL nal_unit_type中的1（非IDR图像的编码条带）、2（编码条带数据分割块A）、3（编码条带数据分割块B）、4（编码条带数据分割块C）、5（IDR图像的编码条带）种类型与 Slice种的三种编码模式：I_slice、P_slice、B_slice NAL nal_unit_type 里的五种类型，代表接下来数据是表示啥信息的和具体如何分块。I_slice、P_slice、B_slice 表示I类型的片、P类型的片，B类型的片.其中I_slice为帧内预测模式编码；P_slice为单向预测编码或帧内模式；B_slice 中为双向预测或帧内模式。

17、还有frame的3种类型：I frame、P frame、 B frame之间有什么映射关系么？
I frame、P frame、 B frame关系同 I_slice、P_slice、B_slice，slice和frame区别在问题1中已经讲明白。

18、最后，NAL nal_unit_type中的6（SEI）、7（SPS）、8（PPS）属于什么帧呢？
NAL nal_unit_type 为序列参数集（SPS）、图像参数集（PPS）、增强信息（SEI）不属于啥帧的概念。表示后面的数据信息为序列参数集（SPS）、图像参数集（PPS）、增强信息（SEI）。
========================================================

首先我觉得先要找相关书籍把基本原理搞懂，不要急于看标准和源代码。要知道什么是采样格式，什么是I、P、B，他们的原理是什么,了解CAVLC、CABAC熵编码的实现过程，一定要认认真真。这样各个主要模块攻克之后，你就可以结合标准和源代码一步一步的看下去。

下面以解码过程为例说一下具体过程： 


    1、 过程：码流→NALU→RBSP。

yu.jpg

如果是字节流的码流当然就首先要对字节流进行解析，这就要看附录 B 了，如何查找起始码和去除伪起始码（为什么有伪起始码呢？）；如果是 RTP 格式的码流，那就要按 RFC3984 来解析了（标准没有规定 RTP 格式码流的解析过程）；字节流解析完后提取出来的就是 NALU 了，对 NALU 的解析就要看第七章了。黑色的粗体字都是在码流中可能出现的语法元素，解码器的首要任务就是要对这些语法元素进行解析。对于这些码流中的语法元素我们要进行解析必须知道三个问题：

（1）、什么时候存在于码流中？这样我们才能知道当前解析的是哪个语法元素；

（2）、采用什么样的熵编码方式？这样我们才能知道如何解析；
（3）、含义是什么？这样我们才知道解析出来之后用来干什么。

NALU 的前面三个语法元素所组成的一个字节我们称为 NALU 头，其余部分（也就是语法表 7.3.1 中的其余部分）我们称为 NALU 体。对 NALU 体的解析要看 7.3.2 小节。因为 NALU 有很多种类型，所以要针对 NALU 的不同类型去解析 NALU 体（表 7-1 说明了不同 NALU 对应的语法表）。例如，如果当前的 NALU 是 SPS，那么当然就要看 7.3.1 小节；如果当前的 NALU 是 DPA，那么当然就要看 7.3.2.9.1 小节了；
2、对于属于 VCL 的 NALU（哪些 NALU 是 VCL NALU 呢？如果你看了 nal_unit_type 的语义，你就应该知道），例如表 7-1 中类型为 5 的 NALU，根据表 7-1 我们知道 NALU 体的语法表是 7.3.2.8。而从 7.3.2.8 我们可以看到，对这种 NALU 的 NALU 体解析实际就是对片级语法进行解析。语法表 7.3.2.8 显示片级语法解析首先要解析 slice_header()（这种带括号的表示是另一个语法结构），那么 slice_header() 怎么解析呢？往下看，7.3.3 的所有内容都被第一行的 slice_header() 包括在内，所以 7.3.3 就是对 slice_header() 这个语法层的码流规定；
3、按照语法表 7.3.2.8 解析完了 slice_header() 就该解析 slice_data() 了。下面以最常见的 I 帧（CAVLC 熵编码、非 MBAFF）的解析过程为例简单描述怎么继续读标准。这时在码流中出现的第一个 slice_data() 层的语法元素是语法表 7.3.4 中的 macroblock_layer()，也就是说直接到了宏块层的语法解析，那就要又要看 7.3.5 小节了；
4、基于我们对编解码流程的了解，我们知道解码是一个预测值加残差得到重建图像的过程，那么我们下面的解码过程就要分成两步走了：首先，得到预测值；其次，得到残差。基于我们对 H.264 关键技术的了解，我们知道 intra 宏块（提醒：我们举的例子是 I 帧，因此解析的是 intra 宏块）的预测值是需要使用到预测模式的，所以我们需要解析语法表 7.3.5 中的 mb_pred(mb_type) 语法层，那么又去看 7.3.5.1 小节。按照 7.3.5.1 小节解析出宏块或块的预测方式后我们怎么计算预测值呢？去看标准 8.3 小节；得到预测值后我们继续按照语法表 7.3.5 解析语法元素直到 residual() 语法层，这就又要去看 7.3.5.3 小节；按照 7.3.5.3 小节解析出残差系数后我们如何把它还原成真实的残差呢？去看标准 8.5 小节；
5、预测值和残差都有了，加起来就是解码图像了。解码的主要工作到此也算基本完成了。当然，上面的过程中还会用到标准其他章节的相关内容（例如，8.5 小节会用到 5.7 小节中定义的 InverseRasterScan）总体过程也就如此吧，详细内容要大家自己去认真的学习