我们在linux操作系统中用得最多的要属于是对文件的操作,只要我们一进入该操作系统面向的都是对文件的操作。上次在博客中提到了linux的文件系统与windows文件系统及linux下的七种文件类型。其中对文件的分类是基于文件的基本属性,现在从文件的编码方式角度来对文件进行分类可以分为:ASCII码文件(也称文本文件)和二进制文件。
由于两种文件的数据在计算机中都是以二进制的形式存储的,故对于ASCII码文件和二进制文件的区别不是在物理上,而是在逻辑组成上。不同的逻辑组成可以形成不同的存储内容。
ASCII码文件是一个模糊的概念,但绝大部分认为ASCII文件是用来保存字符的。文件中的字节数都是字符的某种编码形式(如:ASCII码 / UTF - 8码);在linux终端可以用命令cat查看其中的字符内容,用vim编辑器可以编辑其中的的字符,如我们用vi编辑的所有源文件都是ASCII码文件。
二进制文件不是用来保存字符的,文件的字节数表示其他的含义(可执行文件中有些字节表示指令,有些字节表示各Section和Segment在文件中的位置,有些字节表示各Segment的加载地址)。如,目标文件、可执行文件、库文件;用hexdump命令查看一个二进制文件。
现在我做一个小实验,以区别二进制文件和文本文件:
这里为了能和windows操作系统做对比,我现在windows环境下编辑了个text.txt文件(即为ASCII文件),然后输入"12345回车":
我将此文件移到linux操作系统下借助od命令查看文件的存储形式:
然后用cat命令来显示text.txt文本的内容:
看到这里我们很容易理解windows对文本文件(ASCII码文件)的回车处理很特别:
文件输入\n,它将其转成 \r\n,输出的时候将\r\n 转成\n
在来看看在linux下直接用VIM编辑相同的文件:
接着再用相同的命令来查看,先看看它的存储方式:
在linux下系统自动为ASCII码文件添加'\n',占7个字节;
再看看它文件本身所显示的内容:
内容照我在vim下编辑的内容显示。
下面再看看对二进制文件的处理:
我在windows下试图打开一个二进制文件,但最终失败!但可以预测到打开的文件绝大部分是0、1序列或者是乱码,在linux下我打开了一个二进制文件:
乱码序列显示。
后来我在网上查到,windows操作系统不对二进制文件进行转化;linux不区分ASCII码文件和二进制文件。
既然谈到二进制文件和ASCII文件,那么也应该知道点他们的应用吧。下面我将简单的介绍下这两种类型的文件在传输方面的应用:
ASCII传输模式和二进制数据传输模式是FTP的传输的两种方式。
1.ASCII传输方式:假定用户正在拷贝的文件包含的简单ASCII码文本,如果在远程机器上运行的不是UNIX,当文件传输时ftp通常会自动地调整文件的内容以便于把文件解释成另外那台计算机存储文本文件的格式。
但是常常有这样的情况,用户正在传输的文件包含的不是文本文件,它们可能是程序,数据库,字处理文件或者压缩文件(尽管字处理文件包含的大部分是文本,其中也包含有指示页尺寸,字库等信息的非打印字符)。在拷贝任何非文本文件之前,用binary 命令告诉ftp逐字拷贝,不要对这些文件进行处理,这也是下面要讲的二进制传输。
2.二进制传输模式:在二进制传输中,保存文件的位序,以便原始和拷贝的是逐位一一对应的。即使目的地机器上包含位序列的文件是没意义的。例如,macintosh以二进制方式传送可执行文件到Windows系统,在对方系统上,此文件不能执行。
如果你在ASCII方式下传输二进制文件,即使不需要也仍会转译。这会使传输稍微变慢 ,也会损坏数据,使文件变得不能用。(在大多数计算机上,ASCII方式一般假设每一字符的第一有效位无意义,因为ASCII字符组合不使用它。如果你传输二进制文件,所有的位都是重要的。)如果你知道这两台机器是同样的,则二进制方式对文本文件和数据文件都是有效的。
FTP的工作方式
FTP支持两种模式,一种方式叫做Standard (也就是 PORT方式,主动方式),一种是 Passive (也就是PASV,被动方式)。 Standard模式 FTP的客户端发送 PORT 命令到FTP服务器。Passive模式FTP的客户端发送 PASV命令到 FTP Server。
下面介绍一个这两种方式的工作原理:
Port模式FTP 客户端首先和FTP服务器的TCP 21端口建立连接,通过这个通道发送命令,客户端需要接收数据的时候在这个通道上发送PORT命令。 PORT命令包含了客户端用什么端口接收数据。在传送数据的时候,服务器端通过自己的TCP 20端口连接至客户端的指定端口发送数据。 FTP server必须和客户端建立一个新的连接用来传送数据。
Passive模式在建立控制通道的时候和Standard模式类似,但建立连接后发送的不是Port命令,而是Pasv命令。FTP服务器收到Pasv命令后,随机打开一个高端端口(端口号大于1024)并且通知客户端在这个端口上传送数据的请求,客户端连接FTP服务器此端口,然后FTP服务器将通过这个端口进行数据的传送,这个时候FTP server不再需要建立一个新的和客户端之间的连接。
很多防火墙在设置的时候都是不允许接受外部发起的连接的,所以许多位于防火墙后或内网的FTP服务器不支持PASV模式,因为客户端无法穿过防火墙打开FTP服务器的高端端口;而许多内网的客户端不能用PORT模式登陆FTP服务器,因为从服务器的TCP 20无法和内部网络的客户端建立一个新的连接,造成无法工作。
看到这里相信大家对ASCII文件与二进制文件有了个深入的了解吧!^-^