近期看到了文本流和二进制流的区别,书上讲的比较含糊,理解不透彻,于是细细琢磨了下,把心得跟大家分享一下:
一、首先回答,什么是文件,流
一个文件通常就是磁盘上的一段命名的存储区。比如 stdio.h 就是一个包含一些有用信息的文件的名称。
C将文件看成是连续的字节序列,其中每一个字节都可以单独地读取。这与 UNIX 环境(C的发源地)中的文件结构是一致的。因为其他环境中的文件模型可能会有所不同,所以 ANSI C 提供了文件的两种视图:文本视图和二进制视图。
C将数据的输入输出看作是数据的流入和流出,不管是磁盘文件或者是物理设备都可看作一种流的源和目的,视他们为同一种东西,而不管其具体的物理结构,即对他们的操作,就是数据的流入和流出。这种把数据的输入输出操作对象,抽象化为一 种流,而不管它的具体结构的方法很有利于编程,而涉及流的输出操作函数可用于各种对象,与其具体的实体无关,即具有通用性。
二、文本视图和二进制视图区别
二进制视图中每个字节都可以为程序所访问。
在文本视图中,程序看到的内容和文件的内容有可能不同(非 UNIX 环境)。举例,DOS下有个文件 test.txt,内容为
hello\r\n
world\r\n
^Z
当以二进制模式打开 test.txt 时,C程序看到的内容跟原来一样(如下),此时,没有任何映射发生。
hello\r\n
world\r\n
^Z
当以文本模式打开 test.txt 时,C程序看到的是如下内容:(注意行尾和文件结束符)
hello\n
world\n
也就是说使用文本视图读取文件时,将把行尾的本地环境表示法映射为 C 视图;在输出的时候,也会将 C 视图中的行尾表示映射为本地环境表示法。这样,C 通过文本视图巧妙的将不同环境(DOS,MAC)下的文件转换为相同的表示(UNIX下的表示法)。
而二进制视图则与原文件没有丝毫变化!有点理解了吧?
三、文本文件与二进制文件
文本文件是基于字符编码的文件,基本是定长的,常见的编码有ASCII编码,UNICODE编码等等。二进制文件是基于值编码的文件,变长编码,你可以根据具体应用,指定某个值是什么意思(这样一个过程,可以看作是自定义编码)。
文本工具打开一个文件的过程是怎样的呢?拿记事本来说,它首先读取文件物理上所对应的二进制比特流,然后按照你所选择的解码方式来解释这个流,最后将解释结果显示出来。当用记事本打开二进制文件时,由于按既定的字符编码工作(如ASCII码),所以出现乱码也是很必然的一件事情了。
文本文件编码基于字符定长,译码容易些;二进制文件编码是变长的,所以它灵活,存储利用率要高些,译码难一些(不同的二进制文件格式,有不同的译码方式)。 文本文件的可读性要好些,存储要花费转换时间(读写要编译码),而二进制文件可读性差(需要具体的文件解码器),存储不存在转换时间(读写不要编解码,直接写值)。
你懂了吗?
Stay hungry Stay foolish