冗余的概念:
人为冗余:
①在信息处理系统中,使用两台计算机做同样的工作是提高系统可靠性的一种措施。在这样的系统中,一台计算机在工作,而另一台计算机处于等待状态。如果正在工作的机器出现故障,则由处于等待状态的机器马上接替,我们就说这样的系统是冗余的系统,备用设备称为冗余设备。
②在数据存储和传输中,为了检测和恢复在数据存储或数据传输过程中出现的错误,根据使用的算法的要求,在数据存储或数据传输之前把额外的数据添加到用户数据中,这个额外的数据就是冗余数据。
从上可以看出,冗余设备和数据冗余都是人为添加的,目的是为了提高系统的可靠性和保证数据的正确性。由此可看,冗余并非多于,冗余是人为的。
视听冗余:
由于人的视觉系统和听觉系统的局限性,在图像数据和声音数据中,有些数据确实是多余的,使用算法将其去掉后并不会丢失实质性的信息或含义,对理解数据表达的信息几乎没有影响。这种冗余称为视听冗余。
数据冗余:
不考虑数据来源时,单纯数据集中也可能存在多余的数据,去掉这些多余数据并不会丢失任何信息,这种冗余称为数据冗余,而且还可定量表达。
决策量:
在有限数目的互斥事件集合中,决策量是事件数的对数值。
信息量:
信息量是具有确定概率事件的信息的定量度量。
信息的熵:
熵是指消息中的信息量的度量。在数据压缩技术中,熵是指非冗余的且不压缩的数据量的度量,单位为(bit)。
按照香农的理论,在有限的互斥和联合穷举事件的集合中,熵定义为事件的信息量的平均值,也称事件的平均信息量
统计编码
统计编码是给已知统计信息的符号分配代码的数据无损压缩方法。
香农——范诺编码
从上到下
霍夫曼编码
从下到上
霍夫曼编码注意的问题:
①霍夫曼码没有错误保护功能。在存储或传输过程中,如果码流中没有出现错误,解码时就能一个接一个地正确译出代码。如果码流中出现错误,哪怕只有一位出错,解码时不但这不代码会被译错,更种糕的是还会导致后面的代码也会译错,这种现象称为错误传播(rrorpropagation.计算机对这种错误也无能为力,说不出错在哪里,更谈不上去纠正它。
②霍夫曼码是可变长度码,因此很难随意查找或调用压缩文件中的内容,然后再译码,这就需要在编码时加以考虑。尽管如此,霍夫曼编码还是得到广泛应用。与香农范诺编码相比,这两种方法产生的代码都是自含同步的代码,在编码之后的码流中都不需要另外添加标记符号,即在译码时分割符号的特殊代码。此外,很夫曼编码方法的编码效率比香农范诺编码效丰高一些。
算数编码
算数编码是给已知统计信息的符号分配代码的数据无损压缩技术。
基本思想,用0和1之间的一个数值范围表示输入流中的一个字符
算数编码和霍夫曼编码的异同点:
(1)算术编码的编码效率更高些;
(2)它们都是对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错;
(3)它们的信源概率都是固定的,而且要事先统计确定;
(4)都有相应的“自适应编码”。由于事先知道精确的信源概率是很难的,或者是不切实际的,因此要在编码过程中,根据符号出现的频繁程度不断修改信源符号的概率,估算信源符号概率的过程叫作建模(modeling)。采用这种技术开发的编码分别称为“自适应霍夫曼编码"和“自适应算术编码”。
REL编码
行程长度编码是数据无损压缩编码
译码时按照与编码时采用的相同规则进行,还原后得到的数据与压缩前的数据完全相同,因此是无损压缩技术
它利用连续数据单元有相同数值这一特点对数据进行压缩。在编码时,对相同的数值只编码一次,同时计算相同数值连续重复的次数,称为“行程程度”
RLE编码尤其适用于计算机生成的图像,对减少图像文件的存储空间非常有效。然而,RLE对颜色丰富的自然图像就显得力不从心,因为在同一行上具有相同颜色的连续像素往往很少,而连续几行都具有相同颜色值的连续行数就更少。如果仍然使用RLE编码方法,不仅不能压缩图像数据,反而可能使原来的图像数据变得更大。但这并不是说RLE编码方法不适用于自然图像的压缩,相反,在自然图像的压缩中还真少不了RLE。在JPEG和MPEG等标准中,RLE用来对图像数据经过变换和量化后的系数进行编码。
参考
《多媒体技术基础》