IO分为有缓冲IO和无缓冲IO两种,具体的区别可以见下图。不带缓冲的I/O,直接调用系统调用,速度快,如函数open(), read(), write()等。而带缓冲的I/O,在系统调用前采用一定的策略,速度慢,比不带缓冲的I/O安全,如fopen(), fread() fwrite()等。
下面介绍文件IO中的基础函数。
1.open函数
open函数:调用它可以打开或者创建一个文件。
如果失败,返回值为-1
参数解析: pathname是要打开或者创建的文件名。flags 文件打开时候的选项, O_RDONLY以只读方式打开文件。O_WRONLY以只写方式打开文件。 O_RDWR以读、写方式打开文件。
这三个选项是必选的!
flags 可选选项:
O_APPEND 以追加方式打开文件,每次写时都写在文件末尾。
O_CREAT 如果文件不存在,则创建一个,存在则打开它。
O_EXCL 与O_CREAT一起使用时,如果文件已经存在则返回出错。
O_TRUNC 以只写或读写方式打开时,把文件截断为0
O_DSYNC 每次write时,等待数据写到磁盘上。
O_RSYNC 每次读时,等待相同部分先写到磁盘上。
O_SYNC 每次write时,等到数据写到磁盘上并接更新文件属性。
SYNC选项都会影响降低性能,有时候也取决于文件系统的实现。
mode 只有创建文件时才使用此参数,指定文件的访问权限。模式有:
S_IRWX[UGO] 可读 可写 可执行
S_IR[USR GRP OTH] 可读
S_IW[USR GRP OTH] 可写
S_IX[USR GRP OTH] 可执行
S_ISUID 设置用户ID
S_ISGID 设置组ID
U->user G->group O->others
2.creat函数
creat 以只写方式创建一个文件,若文件已经存在,则把它截断为0
参数解析:
pathname 要创建的文件名称mode 跟open的第三个参数相同,可读,可写,可执行 。如果失败 ,返回值为-1
creat函数等同于 open (pathname, O_WRONLY | O_CREAT | O_TRUNC, mode)
3.close函数
close 关闭已经打开的文件,并释放文件描述符
参数解析:filedes 文件描述符,有open或者creat返回的非负整数。
如果失败,返回值为-1
当一个进程结束时,操作系统会自动释放该进程打开的所有文件。但还是推荐用close来关闭文件。
lsof命令可以查看进程打开了那些文件。
4.lseek函数
lseek 用来定位当前文件偏移量,既你对文件操作从文件的那一部分开始。
如果失败,返回值为-1,成功返回移动后的文件偏移量。
参数解析:filedes 文件描述符。offset 必须与whence一同解析
whence为 SEEK_SET, 则offset从文件的开头算起。
whence为 SEEK_CUR, 则offset从当前位置算起,既新偏移量为当前偏移量加上offset
whence为 SEEK_END, 则offset从文件末尾算起。
可以通过lseek、write来快速创建一个大文件。
5.read函数
read 从当前文件偏移量处读入指定大小的文件内容
失败返回-1, 成功返回读入的字节数,到文件末尾返回0
参数解析 filedes 文件描述符 ,有open返回。buf 读入文件内容存放的内存首地址。nbytes 要读取的字节数。
实际读入的字节数可能会小于要求读入的字节数。比如文件只有所剩的字节数小于你要读入的字节数,读取fifo文件和网络套接字时都可能出现这种情况。
6.write函数
write向一个文件写入一定字节的内容。
失败返回-1,成功返回实际写入的字节数。当磁盘满或者文件到达上限时可能写入失败。
一般从当前文件偏移量出写入,但如果打开时使用了O_APPEND,那么无论当前文件偏移量在哪里,都会移动到文件末尾写入。
以上都是文件IO最基本的几个函数,那么linux的IO是怎么实现的呢?内核使用了三种数据结构,来实现I/O
1. 每个进程在进程表中都有一个记录项,每个记录项中有一张打开文件描述符表,可将其视为一个矢量,每个描述符占用一项。与每个 文 件描述符相关联的是:
(a) 文件描述符标志。
(b) 指向一个文件表项的指针。
2. 内核为所有打开文件维持一张文件表。每个文件表项包含:
(a) 文件状态标志(读、写、增写、同步等)。
(b) 当前文件位移量。
(c) 指向该文件v节点表项的指针。
3. 每个打开文件(或设备)都有一个v节点结构。v节点包含了文件类型和对此文件进行各种操作的函数的指针信息。对于大多数文件, v节点还包含了该文件的i节点(索引节点)。例如, i节点包含了文件的所有者、文件长度、文件所在的设备、指向文件在盘上所使用的实际数据块的指针等等
如下图所示,内核中的数据结构
两个文件各自打开同一个文件,它们拥有各自的文件表项,但共享v节点表。见下图所示
什么是原子操作? A B两个进程以O_APPEND方式打开同一个文件。A 进程去写该文件,假设此时文件偏移量为1000,B进程同时去写该文件,此时由于A进程未写完,则B进程得到的文件偏移量仍为1000。最后B进程的内容可能会覆盖掉A进程写的内容。pread , pwrite是原子读写操作。相当于先把文件偏移量定位到offset,然后在进行读写。这都是一步完成,不存在竞争问题。
返回值跟read和write一样。offset为文件偏移量。
下面介绍一些文件IO中比较高级的函数。dup(),fcntl(),sync()等。
1.dup函数
dup/dup2用来复制一个已经存在的文件描述符
失败返回-1,成功返回新文件描述符。filedes2是新文件描述符,如果已经打开则先关闭它。
ssize_t pread(int filedes, void *buf, size_t nbytes, off_t offset);
共享文件表项。
2.fcntl函数
fcntl 可以改变已经打开的描述符。
参数解析:
第一个为已经打开的文件描述符
第二个为要对文件描述采取的动作
F_DUPFD 复制一个文件描述,返回值为新描述符。
F_GETFD/F_SETFD 目前只有FD_CLOEXEC一个,set时候会用到第三个参数。
F_GETFL / F_SETFL 得到或者设置目前的文件描述符属性,返回值为当前属性。设置时使用第三个参数。
3.sync函数
最后些一个
测试程序,希望可以用到里面大多数函数,用于测试其功能。这个程序功能是打开一个文件,在里面写入hello world,然后调用dup函数复制一个文件描述符,随后调用lseek将偏移量设置到hello之后,最后读出文件内容world打印到终端显示。代码如下所示